Bidu

Dan il-walkthrough għandu juri kif taħdem ma' PMSE (u forsi kif tibda wkoll.) Se jintroduċik għal funzjonijiet bażiċi li jirrappreżentaw il-funzjonalità ewlenija ta' PMSE.

Librerija tad-Data

Sett ta' softwer ġeneriku u middleware għal SNLP. Filosofija UNIX: kitt ta' bini ta' unitajiet żgħar li jistgħu jiġu kkombinati biex jiffurmaw toolchain ġdid. Agnostiku għal-lingwa. Miktub f'Perl, testsuite awtomatiku b'kopertura għolja tal-kodiċi, konxju tal-UTF-8. Ibbażat fuq CLI, ipproċessar effiċjenti u parallel. Dokumentazzjoni bir-reqqa. Modalità interattiva disponibbli.

Irridu niddefinixxu l-ambjent tax-xogħol l-ewwel. PMSE huwa iddisinjat biex jipproċessa dokumenti indipendentement mil-lingwa li fihom huma miktuba. Għalhekk adottajna strateġija kif nittrattaw id-dokumenti f'diversi lingwi. Stabilejna root għal-librerija li tinsab f':

/data/library/

Meta r-root tal-librerija tkun issettjata, jistgħu jiżdiedu direttorji għal lingwi speċifiċi. Il-kodiċi huwa derivat mill-ispeċifikazzjoni tal-lingwa iso-639-3. Id-direttorju għall-Ingliż se jkun għalhekk:

 /data/library/e/n/g/. 

Jekk trid tibni l-librerija tiegħek minn xejn, se bżonn direttorju li fih jitqiegħdu l-fajls tas-sors. Aħna nsejħu lil dak id-direttorju original, ladarba jkollok il-fajls tiegħek, trid tipproċessahom (ikkonvertihom f'test sempliċi, agħmel it-tokenizzazzjoni, estrazzjoni ta' n-grams u hekk 'il quddiem) sabiex tikseb l-informazzjoni mixtieqa. Fajls ipproċessati se jinħażnu fid-direttorju derived.

Ikseb il-Fajl

Dijagramma Ikseb il-Fajl

Skript P_daf ġie ddisinjat biex jipprovdi framework għal download awtomatiku. P_daf jaqra fajl INI li fih ikun speċifikat l-URL tal-mira. Hawn hu eżempju ta' fajl INI sempliċi ħafna imsejjaħ demo.ini:

     [global]
                  lastfetch = 2013-01-30 00:00:00
                  interval  = 6 months
                  name      = demo

                  [Hyperion]
                  threads = 1;
                  BASE  = http://www.gutenberg.org
                  url   = %BASE%/ebooks/5436
                  match = a\shref="(?http://www.gutenberg.org/ebooks/(?\d+).(?kindle).noimages)"\stype
                  get   = $file        store = "$ENV{PMCORP_ROOT}/e/n/g/original/Hyperion.mobi"

It-tifsira tas-sezzjonijiet u l-argumenti fil-fajl hija deskritta fil- manwal ta' PMSE. Il-fajl demo.ini irid jinħażen fid-direttorju $PMSE_BIN/cfg/daf.d/. Jekk qiegħed l-INI hemm, tista' issa ssejjaħ l-iskript:

 P_daf --fetch demo 

Wara d-download, il-fajl 5436.epub għandu jkun fil-lokazzjoni /data/library/e/n/g/original/ direttorju.

Ikkonverti l-Fajl

L-ewwel, mur fil-librerija u mbagħad sejjaħ l-iskript P_dmf. Biex tikkonverti l- format MOBI għal txt, trid tinstalla calibre e-book manager, li huwa użat minn P_dmf bħala wieħed mill-għodod integrati. Tista' tuża l-flag PM_CONVERTOR_WARNINGS=1 biex turi l-konvertituri li huma nieqsa fis-sistema tiegħek.

        cd /data/library/e/n/g/
        PM_CONVERTOR_WARNINGS=1 P_dmf --in /data/library/e/n/g/original/ 

Jekk kollox mar tajjeb, għandek tara d-direttorju /data/library/e/n/g/derived/. Għandu jkun fih fajl ta' test imsejjaħ Hyperion.txt. Ejja nuru l-istruttura tiegħu:

 tree derived/
             derived/
              ├── Hyperion.mobi
              │   ├── lvl.last

              │   └── Hyperion.mobi
              │   │       └── Hyperion.txt -> /data/library/e/n/g/derived/Hyperion.mobi/./lvl.1/Hyperion.mobi/Hyperion.txt
              │   └── lvl.1
              │       └── Hyperion.mobi
              │           └── Hyperion.txt

Naddaf il-Fajl

Il-fajl txt fih header u footer bl-informazzjoni ta' Gutenberg. Se nużaw P_rer sabiex 'inaddfu' l-fajl.

        P_rer 's{.+?(Title:\sHyperion)}{$1}xms' Hyperion.txt
        P_rer 's{\*\*\*\sEND\sOF\sTHE\sPROJECT.+}{}xms' Hyperion.txt

It-tneħħija ta' dawn is-sezzjonijiet se tiżgura li d-data lingwistika estratta tkun korretta. (Ripetizzjoni ta' tokens tista' taffettwa d-distribuzzjoni tal-frekwenzi.)

Tokenizzazzjoni

Tokenizzazzjoni

F'PMSE jeżisti tokenizer sempliċi predefinit u segmentatur ta' sentenzi għall-Ingliż. It-tnejn jużaw P_rer u għandhom il-forma ta' macro. Macro hawn huwa shell wrapper - skript li jiġi msejjaħ b'argumenti speċifiċi.

         MAK_tokenize Hyperion.txt eng
         MAK_1s1l -l eng -i Hyperion.txt

Estrazzjoni ta' N-grams

dijagramma n-grams

Il-funzjonalità ewlenija ta' PMSE hija l-ġenerazzjoni ta' n-grams u l-għadd ta' informazzjoni statistika varji. Il-kodiċi li ġej se jieħu bħala input il-fajls txt kollha fid-direttorju derived u se jiġġenera bigrams u jgħodd l-MI-score tagħhom.

 P_gnp --in derived/ --cluster count --ifilter '+token=\A[\w\d]+\z' --out bigrams --measure 'mi=all' --report 3 

Nota: Użajna speċifikazzjoni default ta' n-grams. Il-parametru jitforma hekk: --ngrams 2 2 ' ' (n-grams ta' daqs 2, minn tieqa ta' daqs 2 u s-separatur bejn tokens huwa spazju abjad).

Viżwalizzazzjoni u Filtrazzjoni

Il-bigrams huma maħżuna bħala oġġett intern PMSE. L-iskript P_dvf huwa kapaċi jikkonverti din l-istruttura għal formati varji. Ukoll, huwa kapaċi jiffiltra u jissortja r-riżultati.

 P_dvf --in mi_1\|2 --filter '($value < 9) | ($key =~   m{\b(that|this|was|and|we|she|he|I|a|is|are|the|be)\b}xmsi)' --sort   '+val' 

Ixtri PMSE

email: sales@petamem.com
telefon: +49 911 894 6455
fax: +420 284 680 110

Spiża tal-Liċenzja

Temmen jew le, issa ġej il-parti tajba. PMSE huwa prodott kummerċjali għas-settur akkademiku u PetaMem trid toffrlek pakkett "kollu inkluż, mingħajr fastidju, mingħajr tbatija". Irridu wkoll li dan is-softwer ikun affordabbli għal kulħadd. Hemm żewġ mudelli ta' liċenzjar sempliċi: Għal kull utent għal kull workstation, li huwa 49,- EUR kull xahar jew għad-dipartiment kollu, li huwa 499,- EUR kull xahar mingħajr limiti fuq l-għadd ta' utenti jew workstations (inkluż studenti). Il-prezzijiet kollha huma + 19% VAT, li ma japplikax jekk tkun barra mill-Ġermanja u għandek VAT-Id.

Kundizzjonijiet tal-Liċenzja

Nwiegħdu liċenzjar "mingħajr fastidju, mingħajr tbatija". Bis- spiża tal-liċenzja tieħu mhux biss id-dritt li tuża s-softwer, iżda wkoll upgrades tas-softwer b'xejn u appoġġ b'xejn. Kwalunkwe upgrades/downgrades tal-liċenzja huma intuwittivi u jagħmlu dak li trid. Kellok ħames liċenzji singoli u tixtieq liċenzja tad-dipartiment jew viċi versa? L-ebda problema! Sempliċement infurmana bl-email u aħna naġġustaw il-kundizzjonijiet tal- liċenzja l-istess ġurnata tax-xogħol.

Isir aħjar: il-kumpanija tagħna hija impenjata għal open source u meta tiddependi fuq softwer kummerċjali, hemm ftit affarijiet li nixtiequ nevitaw aktar minn vendor lock-in. Tista' jkollok tħassib simili meta tiddependi fuq prodott kummerċjali u aħna nifhmu perfettament. Jekk tiddeċiedi li ttemm is-sottoskizzjoni tal-liċenzja ta' PMSE - tajjeb - iżżomm PMSE u tista' tkompli tużah. Titlef l-upgrades u l-appoġġ b'xejn, iżda żżomm tuża s-softwer. B'xejn.

Jekk għandek aktar mistoqsijiet dwar il-liċenzjar jew tixtieq tordna l-prodott, jekk jogħġbok toqgħodx lura milli tikkuntattja sales@petamem.com.

Jekk għandek aktar mistoqsijiet tekniċi dettaljati, jekk jogħġbok ikkuntattja support@petamem.com

agħlaq