Začátek

Tento průvodce by měl ilustrovat, jak pracovat s PMSE (a možná i jak začít). Představí vám základní funkce, které představují jádrovou funkcionalitu PMSE.

Datová Knihovna

Generická softwarová sada a middleware pro SNLP. UNIX filozofie: stavebnice malých jednotek, které mohou být kombinovány do nové toolchain. Jazykově agnostické. Napsáno v Perlu, automatizovaná testovací sada s vysokým pokrytím kódu, UTF-8 aware. Založeno na CLI, efektivní & paralelní zpracování. Důkladná dokumentace. Interaktivní režim k dispozici.

Nejprve musíme definovat pracovní prostředí. PMSE je navrženo pro zpracování dokumentů nezávisle na jazyku, ve kterém jsou napsány. Přijali jsme proto strategii, jak zacházet s dokumenty v různých jazycích. Zavedli jsme kořenový adresář pro knihovnu, který se nachází v:

/data/library/

Když je kořen knihovny nastaven, mohou být přidány adresáře pro konkrétní jazyky. Kód je odvozen ze specifikace jazyka iso-639-3. Adresář pro angličtinu bude tedy:

 /data/library/e/n/g/. 

Pokud chcete vytvořit svou knihovnu od začátku, budete potřebovat adresář, ve kterém budou umístěny zdrojové soubory. Takový adresář nazýváme original, jakmile máte své soubory, musíte je zpracovat (převést do prostého textu, provést tokenizaci, extrakci n-gramů atd.), abyste získali požadované informace. Zpracované soubory budou uloženy v adresáři derived.

Získat soubor

Get File Diagram

Skript P_daf byl navržen tak, aby poskytoval rámec pro automatizované stahování. P_daf čte INI soubor, ve kterém je specifikována URL cíle. Zde je příklad velmi jednoduchého INI souboru nazvaného demo.ini:

     [global]
                  lastfetch = 2013-01-30 00:00:00
                  interval  = 6 months
                  name      = demo

                  [Hyperion]
                  threads = 1;
                  BASE  = http://www.gutenberg.org
                  url   = %BASE%/ebooks/5436
                  match = a\shref="(?<file>http://www.gutenberg.org/ebooks/(?<id>\d+).(?<type>kindle).noimages)"\stype
                  get   = $file        store = "$ENV{PMCORP_ROOT}/e/n/g/original/Hyperion.mobi"

Význam sekcí a argumentů v souboru je popsán v příručce PMSE. Soubor demo.ini musí být uložen v adresáři $PMSE_BIN/cfg/daf.d/. Pokud jste INI umístili tam, můžete nyní zavolat skript:

 P_daf --fetch demo 

Po stažení by měl být soubor 5436.epub umístěn v adresáři /data/library/e/n/g/original/.

Převést soubor

Nejprve přejděte do knihovny a pak zavolejte skript P_dmf. Pro převod formátu MOBI na txt byste měli nainstalovat správce e-knih calibre, který je používán P_dmf jako jeden z integrovaných nástrojů. Můžete použít příznak PM_CONVERTOR_WARNINGS=1, abyste zobrazili převodníky, které ve vašem systému chybí.

        cd /data/library/e/n/g/
        PM_CONVERTOR_WARNINGS=1 P_dmf --in /data/library/e/n/g/original/ 

Pokud vše proběhlo dobře, měli byste vidět adresář /data/library/e/n/g/derived/. Měl by obsahovat textový soubor s názvem Hyperion.txt. Zobrazme jeho strukturu:

 tree derived/
             derived/
              ├── Hyperion.mobi
              │   ├── lvl.last

              │   └── Hyperion.mobi
              │   │       └── Hyperion.txt -> /data/library/e/n/g/derived/Hyperion.mobi/./lvl.1/Hyperion.mobi/Hyperion.txt
              │   └── lvl.1
              │       └── Hyperion.mobi
              │           └── Hyperion.txt

Vyčistit soubor

Soubor txt obsahuje hlavičku a patičku s informacemi z Gutenbergu. Použijeme P_rer, abychom soubor 'vyčistili'.

        P_rer 's{.+?(Title:\sHyperion)}{$1}xms' Hyperion.txt
        P_rer 's{\*\*\*\sEND\sOF\sTHE\sPROJECT.+}{}xms' Hyperion.txt

Odstranění těchto sekcí zajistí, že extrahovaná lingvistická data budou správná. (Opakování tokenů může ovlivnit distribuci frekvencí.)

Tokenizace

Tokenization

V PMSE existuje jednoduchý předdefinovaný tokenizér a segmentátor vět pro angličtinu. Oba používají P_rer a mají formu makra. Makro je zde shell wrapper - skript, který je volán se specifickými argumenty.

         MAK_tokenize Hyperion.txt eng
         MAK_1s1l -l eng -i Hyperion.txt

Extrakce N-gramů

n-grams diagram

Jádrová funkcionalita PMSE je generování n-gramů a počítání různých statistických informací. Následující kód vezme jako vstup všechny txt soubory v adresáři derived a bude generovat bigramy a počítat jejich MI-skóre.

 P_gnp --in derived/ --cluster count --ifilter '+token=\A[\w\d]+\z' --out bigrams --measure 'mi=all' --report 3 

Poznámka: Použili jsme výchozí specifikaci n-gramů. Parametr má formu: --ngrams 2 2 ' ' (n-gramy velikosti 2, z okna velikosti 2 a oddělovač mezi tokeny je mezera).

Vizualizace & Filtrování

Bigramy jsou uloženy jako interní PMSE objekt. Skript P_dvf je schopen převést tuto strukturu do různých formátů. Také je schopen filtrovat a řadit výsledky.

 P_dvf --in mi_1\|2 --filter '($value < 9) | ($key =~   m{\b(that|this|was|and|we|she|he|I|a|is|are|the|be)\b}xmsi)' --sort   '+val' 

Koupit PMSE

email: sales@petamem.com
telefon: +49 911 894 6455
fax: +420 284 680 110

Náklady na Licencování

Věřte nebo ne, teď přichází ta dobrá část. PMSE je komerční produkt pro akademickou sféru a PetaMem vám chce nabídnout balíček "vše v ceně, žádné starosti, žádné problémy". Chceme také, aby tato softwarová sada byla pro každého dostupná. Existují dva jednoduché licenční modely: Na uživatele na pracovní stanici, což je 49,- EUR měsíčně nebo pro celé oddělení, což je 499,- EUR měsíčně bez omezení počtu uživatelů nebo pracovních stanic (včetně studentů). Všechny ceny jsou + 19% DPH, což se nevztahuje, pokud jste mimo Německo a máte DIČ.

Licenční Podmínky

Slibujeme licencování "bez starostí, bez problémů". S licenčními náklady získáte nejen právo používat software, ale také bezplatné upgrady softwaru a bezplatnou podporu. Jakékoliv upgrady/downgrady licencí jsou intuitivní a dělají-co-myslím. Měli jste pět jednotlivých licencí a chtěli byste licenci pro oddělení nebo naopak? Vůbec žádný problém! Jednoduše nás informujte e-mailem a upravíme licenční podmínky ještě ten samý pracovní den.

Je to ještě lepší: naše společnost je oddána open source a když se spoléháme na komerční software, je jen málo věcí, kterým chceme více zabránit než vendor lock-in. Můžete mít podobné obavy, když se spoléháte na komerční produkt a plně to chápeme. Pokud byste se rozhodli ukončit licenční předplatné PMSE - no - PMSE si ponecháte a máte oprávnění jej nadále používat. Ztratíte bezplatné upgrady a bezplatnou podporu, ale software můžete nadále používat. Zdarma.

Pokud máte další otázky týkající se licencování nebo byste chtěli produkt objednat, neváhejte kontaktovat sales@petamem.com.

Pokud máte další detailní technické otázky, kontaktujte prosím support@petamem.com

zavřít