Tento návod by mal ilustrovať, ako pracovať s PMSE (a možno aj ako začať). Predstaví vám základné funkcie, ktoré reprezentujú základnú funkcionalitu PMSE.
Generická softvérová sada a middleware pre SNLP. UNIX filozofia: stavebnica malých jednotiek, ktoré môžu byť kombinované do nového reťazca nástrojov. Jazykovo agnostická. Napísaná v jazyku Perl, automatizovaná testovacia sada s vysokým pokrytím kódu, podporuje UTF-8. Založená na CLI, efektívne a paralelné spracovanie. Dôkladná dokumentácia. K dispozícii interaktívny režim.
Najprv musíme definovať pracovné prostredie. PMSE je navrhnutá na spracovanie dokumentov nezávisle od jazyka, v ktorom sú napísané. Preto sme prijali stratégiu, ako zaobchádzať s dokumentmi v rôznych jazykoch. Vytvorili sme koreň pre knižnicu, ktorý sa nachádza v:
/data/library/
Keď je koreň knižnice nastavený, môžu byť pridané adresáre pre konkrétne jazyky. Kód je odvodený zo špecifikácie jazykov iso-639-3. Adresár pre angličtinu bude teda:
/data/library/e/n/g/.
Ak chcete vybudovať svoju knižnicu od začiatku, budete potrebovať adresár, v ktorom sa nachádzajú zdrojové súbory. Takýto adresár nazývame original, keď máte svoje súbory, musíte ich spracovať (konvertovať do obyčajného textu, vykonať tokenizáciu, extrakciu n-gramov a tak ďalej), aby ste získali požadované informácie. Spracované súbory budú uložené v adresári derived.
Skript P_daf bol navrhnutý na poskytnutie rámca pre automatizované sťahovanie. P_daf číta INI súbor, v ktorom je špecifikované URL cieľa. Tu je príklad veľmi jednoduchého INI súboru nazvaného demo.ini:
[global]
lastfetch = 2013-01-30 00:00:00
interval = 6 months
name = demo
[Hyperion]
threads = 1;
BASE = http://www.gutenberg.org
url = %BASE%/ebooks/5436
match = a\shref="(?http://www.gutenberg.org/ebooks/(?\d+).(?kindle).noimages)"\stype
get = $file store = "$ENV{PMCORP_ROOT}/e/n/g/original/Hyperion.mobi"
Význam sekcií a argumentov v súbore je popísaný v PMSE manuáli. Súbor demo.ini musí byť uložený v adresári $PMSE_BIN/cfg/daf.d/. Ak ste INI umiestnili tam, môžete teraz zavolať skript:
P_daf --fetch demo
Po stiahnutí by mal byť súbor 5436.epub umiestnený v adresári /data/library/e/n/g/original/.
Najprv prejdite do knižnice a potom zavolajte skript P_dmf. Na konverziu formátu MOBI na txt by ste mali nainštalovať calibre správcu e-kníh, ktorý je používaný P_dmf ako jeden z integrovaných nástrojov. Môžete použiť príznak PM_CONVERTOR_WARNINGS=1 na zobrazenie konvertorov, ktoré chýbajú vo vašom systéme.
cd /data/library/e/n/g/
PM_CONVERTOR_WARNINGS=1 P_dmf --in /data/library/e/n/g/original/
Ak všetko prebehlo dobre, mali by ste vidieť adresár /data/library/e/n/g/derived/. Mal by obsahovať textový súbor s názvom Hyperion.txt. Zobrazme jeho štruktúru:
tree derived/
derived/
├── Hyperion.mobi
│ ├── lvl.last
│ └── Hyperion.mobi
│ │ └── Hyperion.txt -> /data/library/e/n/g/derived/Hyperion.mobi/./lvl.1/Hyperion.mobi/Hyperion.txt
│ └── lvl.1
│ └── Hyperion.mobi
│ └── Hyperion.txt
Textový súbor obsahuje hlavičku a pätu s informáciami o Gutenbergu. Použijeme P_rer, aby sme súbor "vyčistili".
P_rer 's{.+?(Title:\sHyperion)}{$1}xms' Hyperion.txt
P_rer 's{\*\*\*\sEND\sOF\sTHE\sPROJECT.+}{}xms' Hyperion.txt
Odstránenie týchto sekcií zabezpečí, že extrahované lingvistické údaje budú správne. (Opakovanie tokenov môže ovplyvniť distribúciu frekvencií.)
V PMSE existuje jednoducho preddefinovaný tokenizér a segmentátor viet pre angličtinu. Obidva používajú P_rer a majú formu makra. Makro je tu shell wrapper - skript, ktorý je volaný s konkrétnymi argumentmi.
MAK_tokenize Hyperion.txt eng
MAK_1s1l -l eng -i Hyperion.txt
Základnou funkcionalitou PMSE je generovanie n-gramov a počítanie rôznych štatistických informácií. Nasledujúci kód zoberie ako vstup všetky txt súbory v adresári derived a vygeneruje bigramy a vypočíta ich MI-skóre.
P_gnp --in derived/ --cluster count --ifilter '+token=\A[\w\d]+\z' --out bigrams --measure 'mi=all' --report 3
Poznámka: Použili sme predvolenú špecifikáciu n-gramov. Parameter vyzerá takto: --ngrams 2 2 ' ' (n-gramy veľkosti 2, z okna veľkosti 2 a oddeľovač medzi tokenmi je medzera).
Bigramy sú uložené ako interný objekt PMSE. Skript P_dvf je schopný konvertovať túto štruktúru do rôznych formátov. Taktiež je schopný filtrovať a triediť výsledky.
P_dvf --in mi_1\|2 --filter '($value < 9) | ($key =~ m{\b(that|this|was|and|we|she|he|I|a|is|are|the|be)\b}xmsi)' --sort '+val'
email: sales@petamem.com
phone: +49 911 894 6455
fax: +420 284 680 110
Verte alebo nie, teraz prichádza tá dobrá časť. PMSE je komerčný produkt pre akademický sektor a PetaMem vám chce ponúknuť balík "všetko v cene, žiadne problémy, žiadne starosti". Chceme tiež, aby bol tento softvérový balík cenovo dostupný pre všetkých. Existujú dva jednoduché licenčné modely: Na používateľa na pracovnú stanicu, čo je 49,- EUR mesačne alebo na celé oddelenie, čo je 499,- EUR mesačne bez obmedzenia počtu používateľov alebo pracovných staníc (vrátane študentov). Všetky ceny sú + 19% DPH, ktorá sa neuplatňuje, ak ste mimo Nemecka a máte DIČ.
Sľubujeme licencovanie "žiadne problémy, žiadne starosti". S licenčnými nákladmi získate nielen právo používať softvér, ale aj bezplatné aktualizácie softvéru a bezplatnú podporu. Akékoľvek zvýšenie/zníženie licencie sú intuitívne a robia presne to, čo chcete. Mali ste päť samostatných licencií a chceli by ste licenciu pre oddelenie alebo naopak? Žiadny problém! Jednoducho nás informujte e-mailom a my upravíme licenčné podmienky v ten istý pracovný deň.
A to nie je všetko: naša spoločnosť sa zaviazala k open source a pri spoliehaniu sa na komerčný softvér je len málo vecí, ktorým sa chceme vyhnúť viac ako uzamknutiu dodávateľa. Možno máte podobné obavy pri spoliehnutí sa na komerčný produkt a plne to chápeme. Ak sa rozhodnete ukončiť licenčné predplatné PMSE - no - ponecháte si PMSE a môžete ho naďalej používať. Stratíte bezplatné aktualizácie a bezplatnú podporu, ale softvér si ponecháte. Zadarmo.
Ak máte ďalšie otázky týkajúce sa licencovania alebo ak by ste si chceli objednať produkt, neváhajte kontaktovať sales@petamem.com.
Ak máte ďalšie podrobné technické otázky, kontaktujte prosím support@petamem.com
zavrieť