Byrjun

Þessi leiðarvísir ætti að sýna hvernig á að vinna með PMSE (og kannski hvernig á að byrja.) Hann mun kynna þér grunnvirkni sem táknar kjarnavirkni PMSE.

Gagnasafn

Almennur hugbúnaðarpakki og millilag fyrir SNLP. UNIX heimspeki: byggingargrunnur af litlum einingum sem hægt er að sameina í nýja verkfæraröð. Tungumálaóháð. Skrifað í Perl, sjálfvirk prófsafn með mikla kóðaþekju, UTF-8 meðvitað. CLI byggt, skilvirk og samhliða vinnsla. Ítarleg skjölun. Gagnvirkur hamur í boði.

Við þurfum fyrst að skilgreina vinnuumhverfið. PMSE er hannað til að vinna skjöl óháð tungumálinu sem þau eru skrifuð á. Við tókum því upp stefnu um hvernig eigi að takast á við skjöl á ýmsum tungumálum. Við stofnuðum rót fyrir safnið sem er staðsett í:

/data/library/

Þegar rót safnsins er stillt, má bæta við möppum fyrir ákveðin tungumál. Kóðinn er fenginn úr iso-639-3 tungumálastaðli. Mappa fyrir ensku verður þannig:

 /data/library/e/n/g/. 

Ef þú vilt byggja safnið þitt frá grunni, þarftu möppu þar sem upprunalegir skrár verða geymdar. Við köllum slíka möppu original, þegar þú ert með skrárnar þínar, þarftu að vinna þær (umbreyta í einfaldan texta, gera staðfestingu, n-grams útdrátt og svo framvegis) til að fá þær upplýsingar sem þú óskar eftir. Unnar skrár verða geymdar í derived möppu.

Ná í skrána

Ná í skrá rit

Skriftan P_daf var hönnuð til að veita ramma fyrir sjálfvirka niðurhal. P_daf les INI skrá, þar sem URL-slóð markmiðsins er tilgreind. Hér er dæmi um mjög einfalda INI skrá sem heitir demo.ini:

     [global]
                  lastfetch = 2013-01-30 00:00:00
                  interval  = 6 months
                  name      = demo

                  [Hyperion]
                  threads = 1;
                  BASE  = http://www.gutenberg.org
                  url   = %BASE%/ebooks/5436
                  match = a\shref="(?http://www.gutenberg.org/ebooks/(?\d+).(?kindle).noimages)"\stype
                  get   = $file        store = "$ENV{PMCORP_ROOT}/e/n/g/original/Hyperion.mobi"

Merking hluta og breyta í skránni er lýst í PMSE handbókinni. Skráin demo.ini verður að vera geymd í möppunni $PMSE_BIN/cfg/daf.d/ . Ef þú hefur sett INI þar, geturðu nú kallað á skriftuna:

 P_daf --fetch demo 

Eftir niðurhalið ætti skráin 5436.epub að vera í möppunni /data/library/e/n/g/original/.

Umbreyta skránni

Fyrst skaltu fara í safnið og síðan kalla á skriftuna P_dmf. Til að umbreyta MOBI sniðinu í txt, ættir þú að setja upp calibre rafbókastjóra, sem er notaður af P_dmf sem eitt af samþættum verkfærum. Þú getur notað flaggið PM_CONVERTOR_WARNINGS=1 til að birta umbreytara sem vantar á kerfið þitt.

        cd /data/library/e/n/g/
        PM_CONVERTOR_WARNINGS=1 P_dmf --in /data/library/e/n/g/original/ 

Ef allt gekk vel, ættir þú að sjá möppuna /data/library/e/n/g/derived/. Hún ætti að innihalda textaskrá sem heitir Hyperion.txt. Látum sjá skipanina hennar:

 tree derived/
             derived/
              ├── Hyperion.mobi
              │   ├── lvl.last

              │   └── Hyperion.mobi
              │   │       └── Hyperion.txt -> /data/library/e/n/g/derived/Hyperion.mobi/./lvl.1/Hyperion.mobi/Hyperion.txt
              │   └── lvl.1
              │       └── Hyperion.mobi
              │           └── Hyperion.txt

Hreinsa skrána

Textaskráin inniheldur haus og fót með Gutenberg upplýsingum. Við munum nota P_rer til að 'hreinsa' skrána.

        P_rer 's{.+?(Title:\sHyperion)}{$1}xms' Hyperion.txt
        P_rer 's{\*\*\*\sEND\sOF\sTHE\sPROJECT.+}{}xms' Hyperion.txt

Fjarlæging þessara hluta mun tryggja að dregin málfræðigögn verði rétt. (Endurtekning tákna getur haft áhrif á dreifingu tíðni.)

Staðfesting

Staðfesting

Í PMSE er til einfaldur fyrirframskilgreindur staðfestir og setningaskipting fyrir ensku. Bæði nota P_rer og eru í formi fjölva. Fjölvi er hér skeljaumgjörð - skrifta sem er kölluð á með tilteknum breytum.

         MAK_tokenize Hyperion.txt eng
         MAK_1s1l -l eng -i Hyperion.txt

N-grams útdráttur

n-grams rit

Kjarnavirkni PMSE er framleiðsla á n-grams og talning á ýmsum tölfræðiupplýsingum. Eftirfarandi kóði mun taka sem inntak allar txt skrár í möppunni derived og mun framleiða tvíræminga og telja MI-stig þeirra.

 P_gnp --in derived/ --cluster count --ifilter '+token=\A[\w\d]+\z' --out bigrams --measure 'mi=all' --report 3 

Athugið: Við notuðum sjálfgefna skilgreiningu á n-grams. Færibreytan lítur svona út: --ngrams 2 2 ' ' (n-grams af stærð 2, úr glugga af stærð 2 og skiltáknið milli tákna er bil).

Sjónræn framsetning og síun

Tvíræmingarnir eru geymdir sem innra PMSE hlutur. Skriftan P_dvf er fær um að umbreyta þessari uppbyggingu í ýmis snið. Einnig getur hún síað og raðað niðurstöðum.

 P_dvf --in mi_1\|2 --filter '($value < 9) | ($key =~   m{\b(that|this|was|and|we|she|he|I|a|is|are|the|be)\b}xmsi)' --sort   '+val' 

Kaupa PMSE

tölvupóstur: sales@petamem.com
sími: +49 911 894 6455
fax: +420 284 680 110

Leyfiskostnaður

Trúðu því eða ekki, nú kemur góði hlutinn. PMSE er viðskiptavara fyrir fræðageirann og PetaMem vill bjóða þér "allt innifalið, ekkert vandamál, engar áhyggjur" pakka. Við viljum líka að þessi hugbúnaðarpakki sé á viðráðanlegu verði fyrir alla. Það eru tvö einföld leyfisgjafalíkön: Fyrir hvern notanda á vinnustöð, sem er 49,- EUR á mánuði eða deildarleyfi, sem er 499,- EUR á mánuði án takmarkana á fjölda notenda eða vinnustöðva (þar á meðal nemendur). Öll verð eru + 19% VSK, sem gildir ekki ef þú ert utan Þýskalands og ert með VSK-númer.

Leyfisskilmálar

Við lofum "engin vandamál, engar áhyggjur" leyfisgjöf. Með leyfiskostnaðinum færðu ekki bara rétt til að nota hugbúnaðinn, heldur einnig ókeypis hugbúnaðaruppfærslur og ókeypis stuðning. Allar leyfiuppfærslur/lækkun eru innsæi og gera-það-sem-ég-meina. Áttir þú fimm stakaleyfin og viltu fá deildarleyfi eða öfugt? Ekkert mál! Láttu okkur einfaldlega vita með tölvupósti og við aðlögum leyfisskilmálana sama virka dag.

Það verður enn betra: fyrirtækið okkar hefur skuldbundið sig við opinn hugbúnað og þegar treyst er á viðskiptahugbúnað, þá eru aðeins fá hlutir sem við viljum forðast meira en læsingu við birgja. Þú gætir haft svipaðar áhyggjur þegar þú treystir á viðskiptavöru og við skiljum það fullkomlega. Ættir þú að ákveða að hætta leyfiáskrift PMSE - jæja - þú heldur PMSE og hefur leyfi til að halda áfram að nota það. Þú missir ókeypis uppfærslurnar og ókeypis stuðning, en þú heldur áfram að nota hugbúnaðinn. Ókeypis.

Ef þú hefur frekari spurningar varðandi leyfisveitingu eða viltu panta vöruna, vinsamlegast ekki hika við að hafa samband við sales@petamem.com.

Ef þú hefur frekari ítarlegar tæknilegar spurningar, vinsamlegast hafðu samband við support@petamem.com

loka