Začíname

Tento návod by mal ilustrovať, ako pracovať s PMSE (a možno aj ako začať). Predstaví vám základné funkcie, ktoré reprezentujú základnú funkcionalitu PMSE.

Dátová knižnica

Generická softvérová sada a middleware pre SNLP. UNIX filozofia: stavebnica malých jednotiek, ktoré môžu byť kombinované do nového reťazca nástrojov. Jazykovo agnostická. Napísaná v jazyku Perl, automatizovaná testovacia sada s vysokým pokrytím kódu, podporuje UTF-8. Založená na CLI, efektívne a paralelné spracovanie. Dôkladná dokumentácia. K dispozícii interaktívny režim.

Najprv musíme definovať pracovné prostredie. PMSE je navrhnutá na spracovanie dokumentov nezávisle od jazyka, v ktorom sú napísané. Preto sme prijali stratégiu, ako zaobchádzať s dokumentmi v rôznych jazykoch. Vytvorili sme koreň pre knižnicu, ktorý sa nachádza v:

/data/library/

Keď je koreň knižnice nastavený, môžu byť pridané adresáre pre konkrétne jazyky. Kód je odvodený zo špecifikácie jazykov iso-639-3. Adresár pre angličtinu bude teda:

 /data/library/e/n/g/. 

Ak chcete vybudovať svoju knižnicu od začiatku, budete potrebovať adresár, v ktorom sa nachádzajú zdrojové súbory. Takýto adresár nazývame original, keď máte svoje súbory, musíte ich spracovať (konvertovať do obyčajného textu, vykonať tokenizáciu, extrakciu n-gramov a tak ďalej), aby ste získali požadované informácie. Spracované súbory budú uložené v adresári derived.

Získať súbor

Get File Diagram

Skript P_daf bol navrhnutý na poskytnutie rámca pre automatizované sťahovanie. P_daf číta INI súbor, v ktorom je špecifikované URL cieľa. Tu je príklad veľmi jednoduchého INI súboru nazvaného demo.ini:

     [global]
                  lastfetch = 2013-01-30 00:00:00
                  interval  = 6 months
                  name      = demo

                  [Hyperion]
                  threads = 1;
                  BASE  = http://www.gutenberg.org
                  url   = %BASE%/ebooks/5436
                  match = a\shref="(?http://www.gutenberg.org/ebooks/(?\d+).(?kindle).noimages)"\stype
                  get   = $file        store = "$ENV{PMCORP_ROOT}/e/n/g/original/Hyperion.mobi"

Význam sekcií a argumentov v súbore je popísaný v PMSE manuáli. Súbor demo.ini musí byť uložený v adresári $PMSE_BIN/cfg/daf.d/. Ak ste INI umiestnili tam, môžete teraz zavolať skript:

 P_daf --fetch demo 

Po stiahnutí by mal byť súbor 5436.epub umiestnený v adresári /data/library/e/n/g/original/.

Konvertovať súbor

Najprv prejdite do knižnice a potom zavolajte skript P_dmf. Na konverziu formátu MOBI na txt by ste mali nainštalovať calibre správcu e-kníh, ktorý je používaný P_dmf ako jeden z integrovaných nástrojov. Môžete použiť príznak PM_CONVERTOR_WARNINGS=1 na zobrazenie konvertorov, ktoré chýbajú vo vašom systéme.

        cd /data/library/e/n/g/
        PM_CONVERTOR_WARNINGS=1 P_dmf --in /data/library/e/n/g/original/ 

Ak všetko prebehlo dobre, mali by ste vidieť adresár /data/library/e/n/g/derived/. Mal by obsahovať textový súbor s názvom Hyperion.txt. Zobrazme jeho štruktúru:

 tree derived/
             derived/
              ├── Hyperion.mobi
              │   ├── lvl.last

              │   └── Hyperion.mobi
              │   │       └── Hyperion.txt -> /data/library/e/n/g/derived/Hyperion.mobi/./lvl.1/Hyperion.mobi/Hyperion.txt
              │   └── lvl.1
              │       └── Hyperion.mobi
              │           └── Hyperion.txt

Vyčistiť súbor

Textový súbor obsahuje hlavičku a pätu s informáciami o Gutenbergu. Použijeme P_rer, aby sme súbor "vyčistili".

        P_rer 's{.+?(Title:\sHyperion)}{$1}xms' Hyperion.txt
        P_rer 's{\*\*\*\sEND\sOF\sTHE\sPROJECT.+}{}xms' Hyperion.txt

Odstránenie týchto sekcií zabezpečí, že extrahované lingvistické údaje budú správne. (Opakovanie tokenov môže ovplyvniť distribúciu frekvencií.)

Tokenizácia

Tokenization

V PMSE existuje jednoducho preddefinovaný tokenizér a segmentátor viet pre angličtinu. Obidva používajú P_rer a majú formu makra. Makro je tu shell wrapper - skript, ktorý je volaný s konkrétnymi argumentmi.

         MAK_tokenize Hyperion.txt eng
         MAK_1s1l -l eng -i Hyperion.txt

Extrakcia N-gramov

n-grams diagram

Základnou funkcionalitou PMSE je generovanie n-gramov a počítanie rôznych štatistických informácií. Nasledujúci kód zoberie ako vstup všetky txt súbory v adresári derived a vygeneruje bigramy a vypočíta ich MI-skóre.

 P_gnp --in derived/ --cluster count --ifilter '+token=\A[\w\d]+\z' --out bigrams --measure 'mi=all' --report 3 

Poznámka: Použili sme predvolenú špecifikáciu n-gramov. Parameter vyzerá takto: --ngrams 2 2 ' ' (n-gramy veľkosti 2, z okna veľkosti 2 a oddeľovač medzi tokenmi je medzera).

Vizualizácia a filtrovanie

Bigramy sú uložené ako interný objekt PMSE. Skript P_dvf je schopný konvertovať túto štruktúru do rôznych formátov. Taktiež je schopný filtrovať a triediť výsledky.

 P_dvf --in mi_1\|2 --filter '($value < 9) | ($key =~   m{\b(that|this|was|and|we|she|he|I|a|is|are|the|be)\b}xmsi)' --sort   '+val' 

Kúpiť PMSE

email: sales@petamem.com
phone: +49 911 894 6455
fax: +420 284 680 110

Licenčné náklady

Verte alebo nie, teraz prichádza tá dobrá časť. PMSE je komerčný produkt pre akademický sektor a PetaMem vám chce ponúknuť balík "všetko v cene, žiadne problémy, žiadne starosti". Chceme tiež, aby bol tento softvérový balík cenovo dostupný pre všetkých. Existujú dva jednoduché licenčné modely: Na používateľa na pracovnú stanicu, čo je 49,- EUR mesačne alebo na celé oddelenie, čo je 499,- EUR mesačne bez obmedzenia počtu používateľov alebo pracovných staníc (vrátane študentov). Všetky ceny sú + 19% DPH, ktorá sa neuplatňuje, ak ste mimo Nemecka a máte DIČ.

Licenčné podmienky

Sľubujeme licencovanie "žiadne problémy, žiadne starosti". S licenčnými nákladmi získate nielen právo používať softvér, ale aj bezplatné aktualizácie softvéru a bezplatnú podporu. Akékoľvek zvýšenie/zníženie licencie sú intuitívne a robia presne to, čo chcete. Mali ste päť samostatných licencií a chceli by ste licenciu pre oddelenie alebo naopak? Žiadny problém! Jednoducho nás informujte e-mailom a my upravíme licenčné podmienky v ten istý pracovný deň.

A to nie je všetko: naša spoločnosť sa zaviazala k open source a pri spoliehaniu sa na komerčný softvér je len málo vecí, ktorým sa chceme vyhnúť viac ako uzamknutiu dodávateľa. Možno máte podobné obavy pri spoliehnutí sa na komerčný produkt a plne to chápeme. Ak sa rozhodnete ukončiť licenčné predplatné PMSE - no - ponecháte si PMSE a môžete ho naďalej používať. Stratíte bezplatné aktualizácie a bezplatnú podporu, ale softvér si ponecháte. Zadarmo.

Ak máte ďalšie otázky týkajúce sa licencovania alebo ak by ste si chceli objednať produkt, neváhajte kontaktovať sales@petamem.com.

Ak máte ďalšie podrobné technické otázky, kontaktujte prosím support@petamem.com

zavrieť