Dan il-walkthrough għandu juri kif taħdem ma' PMSE (u forsi kif tibda wkoll.) Se jintroduċik għal funzjonijiet bażiċi li jirrappreżentaw il-funzjonalità ewlenija ta' PMSE.
Sett ta' softwer ġeneriku u middleware għal SNLP. Filosofija UNIX: kitt ta' bini ta' unitajiet żgħar li jistgħu jiġu kkombinati biex jiffurmaw toolchain ġdid. Agnostiku għal-lingwa. Miktub f'Perl, testsuite awtomatiku b'kopertura għolja tal-kodiċi, konxju tal-UTF-8. Ibbażat fuq CLI, ipproċessar effiċjenti u parallel. Dokumentazzjoni bir-reqqa. Modalità interattiva disponibbli.
Irridu niddefinixxu l-ambjent tax-xogħol l-ewwel. PMSE huwa iddisinjat biex jipproċessa dokumenti indipendentement mil-lingwa li fihom huma miktuba. Għalhekk adottajna strateġija kif nittrattaw id-dokumenti f'diversi lingwi. Stabilejna root għal-librerija li tinsab f':
/data/library/
Meta r-root tal-librerija tkun issettjata, jistgħu jiżdiedu direttorji għal lingwi speċifiċi. Il-kodiċi huwa derivat mill-ispeċifikazzjoni tal-lingwa iso-639-3. Id-direttorju għall-Ingliż se jkun għalhekk:
/data/library/e/n/g/.
Jekk trid tibni l-librerija tiegħek minn xejn, se bżonn direttorju li fih jitqiegħdu l-fajls tas-sors. Aħna nsejħu lil dak id-direttorju original, ladarba jkollok il-fajls tiegħek, trid tipproċessahom (ikkonvertihom f'test sempliċi, agħmel it-tokenizzazzjoni, estrazzjoni ta' n-grams u hekk 'il quddiem) sabiex tikseb l-informazzjoni mixtieqa. Fajls ipproċessati se jinħażnu fid-direttorju derived.
Skript P_daf ġie ddisinjat biex jipprovdi framework għal download awtomatiku. P_daf jaqra fajl INI li fih ikun speċifikat l-URL tal-mira. Hawn hu eżempju ta' fajl INI sempliċi ħafna imsejjaħ demo.ini:
[global]
lastfetch = 2013-01-30 00:00:00
interval = 6 months
name = demo
[Hyperion]
threads = 1;
BASE = http://www.gutenberg.org
url = %BASE%/ebooks/5436
match = a\shref="(?http://www.gutenberg.org/ebooks/(?\d+).(?kindle).noimages)"\stype
get = $file store = "$ENV{PMCORP_ROOT}/e/n/g/original/Hyperion.mobi"
It-tifsira tas-sezzjonijiet u l-argumenti fil-fajl hija deskritta fil- manwal ta' PMSE. Il-fajl demo.ini irid jinħażen fid-direttorju $PMSE_BIN/cfg/daf.d/. Jekk qiegħed l-INI hemm, tista' issa ssejjaħ l-iskript:
P_daf --fetch demo
Wara d-download, il-fajl 5436.epub għandu jkun fil-lokazzjoni /data/library/e/n/g/original/ direttorju.
L-ewwel, mur fil-librerija u mbagħad sejjaħ l-iskript P_dmf. Biex tikkonverti l- format MOBI għal txt, trid tinstalla calibre e-book manager, li huwa użat minn P_dmf bħala wieħed mill-għodod integrati. Tista' tuża l-flag PM_CONVERTOR_WARNINGS=1 biex turi l-konvertituri li huma nieqsa fis-sistema tiegħek.
cd /data/library/e/n/g/
PM_CONVERTOR_WARNINGS=1 P_dmf --in /data/library/e/n/g/original/
Jekk kollox mar tajjeb, għandek tara d-direttorju /data/library/e/n/g/derived/. Għandu jkun fih fajl ta' test imsejjaħ Hyperion.txt. Ejja nuru l-istruttura tiegħu:
tree derived/
derived/
├── Hyperion.mobi
│ ├── lvl.last
│ └── Hyperion.mobi
│ │ └── Hyperion.txt -> /data/library/e/n/g/derived/Hyperion.mobi/./lvl.1/Hyperion.mobi/Hyperion.txt
│ └── lvl.1
│ └── Hyperion.mobi
│ └── Hyperion.txt
Il-fajl txt fih header u footer bl-informazzjoni ta' Gutenberg. Se nużaw P_rer sabiex 'inaddfu' l-fajl.
P_rer 's{.+?(Title:\sHyperion)}{$1}xms' Hyperion.txt
P_rer 's{\*\*\*\sEND\sOF\sTHE\sPROJECT.+}{}xms' Hyperion.txt
It-tneħħija ta' dawn is-sezzjonijiet se tiżgura li d-data lingwistika estratta tkun korretta. (Ripetizzjoni ta' tokens tista' taffettwa d-distribuzzjoni tal-frekwenzi.)
F'PMSE jeżisti tokenizer sempliċi predefinit u segmentatur ta' sentenzi għall-Ingliż. It-tnejn jużaw P_rer u għandhom il-forma ta' macro. Macro hawn huwa shell wrapper - skript li jiġi msejjaħ b'argumenti speċifiċi.
MAK_tokenize Hyperion.txt eng
MAK_1s1l -l eng -i Hyperion.txt
Il-funzjonalità ewlenija ta' PMSE hija l-ġenerazzjoni ta' n-grams u l-għadd ta' informazzjoni statistika varji. Il-kodiċi li ġej se jieħu bħala input il-fajls txt kollha fid-direttorju derived u se jiġġenera bigrams u jgħodd l-MI-score tagħhom.
P_gnp --in derived/ --cluster count --ifilter '+token=\A[\w\d]+\z' --out bigrams --measure 'mi=all' --report 3
Nota: Użajna speċifikazzjoni default ta' n-grams. Il-parametru jitforma hekk: --ngrams 2 2 ' ' (n-grams ta' daqs 2, minn tieqa ta' daqs 2 u s-separatur bejn tokens huwa spazju abjad).
Il-bigrams huma maħżuna bħala oġġett intern PMSE. L-iskript P_dvf huwa kapaċi jikkonverti din l-istruttura għal formati varji. Ukoll, huwa kapaċi jiffiltra u jissortja r-riżultati.
P_dvf --in mi_1\|2 --filter '($value < 9) | ($key =~ m{\b(that|this|was|and|we|she|he|I|a|is|are|the|be)\b}xmsi)' --sort '+val'
email: sales@petamem.com
telefon: +49 911 894 6455
fax: +420 284 680 110
Temmen jew le, issa ġej il-parti tajba. PMSE huwa prodott kummerċjali għas-settur akkademiku u PetaMem trid toffrlek pakkett "kollu inkluż, mingħajr fastidju, mingħajr tbatija". Irridu wkoll li dan is-softwer ikun affordabbli għal kulħadd. Hemm żewġ mudelli ta' liċenzjar sempliċi: Għal kull utent għal kull workstation, li huwa 49,- EUR kull xahar jew għad-dipartiment kollu, li huwa 499,- EUR kull xahar mingħajr limiti fuq l-għadd ta' utenti jew workstations (inkluż studenti). Il-prezzijiet kollha huma + 19% VAT, li ma japplikax jekk tkun barra mill-Ġermanja u għandek VAT-Id.
Nwiegħdu liċenzjar "mingħajr fastidju, mingħajr tbatija". Bis- spiża tal-liċenzja tieħu mhux biss id-dritt li tuża s-softwer, iżda wkoll upgrades tas-softwer b'xejn u appoġġ b'xejn. Kwalunkwe upgrades/downgrades tal-liċenzja huma intuwittivi u jagħmlu dak li trid. Kellok ħames liċenzji singoli u tixtieq liċenzja tad-dipartiment jew viċi versa? L-ebda problema! Sempliċement infurmana bl-email u aħna naġġustaw il-kundizzjonijiet tal- liċenzja l-istess ġurnata tax-xogħol.
Isir aħjar: il-kumpanija tagħna hija impenjata għal open source u meta tiddependi fuq softwer kummerċjali, hemm ftit affarijiet li nixtiequ nevitaw aktar minn vendor lock-in. Tista' jkollok tħassib simili meta tiddependi fuq prodott kummerċjali u aħna nifhmu perfettament. Jekk tiddeċiedi li ttemm is-sottoskizzjoni tal-liċenzja ta' PMSE - tajjeb - iżżomm PMSE u tista' tkompli tużah. Titlef l-upgrades u l-appoġġ b'xejn, iżda żżomm tuża s-softwer. B'xejn.
Jekk għandek aktar mistoqsijiet dwar il-liċenzjar jew tixtieq tordna l-prodott, jekk jogħġbok toqgħodx lura milli tikkuntattja sales@petamem.com.
Jekk għandek aktar mistoqsijiet tekniċi dettaljati, jekk jogħġbok ikkuntattja support@petamem.com
agħlaq