Začetek

Ta vodič naj prikaže, kako delati s PMSE (in morda kako začeti). Predstavil vam bo osnovne funkcije, ki predstavljajo jedro funkcionalnosti PMSE.

Knjižnica podatkov

Univerzalna programska oprema in vmesna programska oprema za SNLP. UNIX filozofija: zbirka gradnikov iz majhnih enot, ki jih je mogoče kombinirati v novo orodje. Jezikovno neodvisno. Napisano v Perlu, avtomatizirano testiranje z visoko pokritostjo kode, UTF-8 podprto. Temelji na CLI, učinkovito in vzporedno procesiranje. Temeljita dokumentacija. Na voljo interaktivni način.

Najprej moramo definirati delovno okolje. PMSE je zasnovan za obdelavo dokumentov neodvisno od jezika, v katerem so napisani. Zato smo sprejeli strategijo, kako ravnati z dokumenti v različnih jezikih. Vzpostavili smo koren za knjižnico, ki se nahaja v:

/data/library/

Ko je koren knjižnice nastavljen, lahko dodamo imenike za določene jezike. Koda je izpeljana iz specifikacije jezika iso-639-3. Imenik za angleščino bo torej:

 /data/library/e/n/g/. 

Če želite zgraditi svojo knjižnico od začetka, boste potrebovali imenik, v katerem bodo izvirne datoteke. Temu imeniku pravimo original, ko imate svoje datoteke, jih morate obdelati (pretvoriti v navadno besedilo, tokenizirati, ekstrahirati n-grame in tako naprej), da dobite želene informacije. Obdelane datoteke bodo shranjene v imeniku derived.

Pridobi datoteko

diagram pridobi datoteko

Skript P_daf je bil zasnovan za zagotavljanje ogrodja za avtomatizirani prenos. P_daf prebere INI datoteko, v kateri je naveden URL cilja. Tu je primer zelo preproste INI datoteke imenovane demo.ini:

     [global]
                  lastfetch = 2013-01-30 00:00:00
                  interval  = 6 months
                  name      = demo

                  [Hyperion]
                  threads = 1;
                  BASE  = http://www.gutenberg.org
                  url   = %BASE%/ebooks/5436
                  match = a\shref="(?http://www.gutenberg.org/ebooks/(?\d+).(?kindle).noimages)"\stype
                  get   = $file        store = "$ENV{PMCORP_ROOT}/e/n/g/original/Hyperion.mobi"

Pomen razdelkov in argumentov v datoteki je opisan v PMSE priročniku. Datoteka demo.ini mora biti shranjena v imeniku $PMSE_BIN/cfg/daf.d/. Če ste INI postavili tja, lahko zdaj pokličete skript:

 P_daf --fetch demo 

Po prenosu bi morala biti datoteka 5436.epub v imeniku /data/library/e/n/g/original/.

Pretvori datoteko

Najprej pojdite v knjižnico in nato pokličite skript P_dmf. Za pretvorbo MOBI formata v txt morate namestiti calibre upravljalnik e-knjig, ki ga P_dmf uporablja kot eno od integriranih orodij. Lahko uporabite zastavico PM_CONVERTOR_WARNINGS=1 za prikaz pretvornikov, ki manjkajo v vašem sistemu.

        cd /data/library/e/n/g/
        PM_CONVERTOR_WARNINGS=1 P_dmf --in /data/library/e/n/g/original/ 

Če je vse šlo dobro, bi morali videti imenik /data/library/e/n/g/derived/. Vsebovati mora besedilno datoteko z imenom Hyperion.txt. Prikažimo njeno strukturo:

 tree derived/
             derived/
              ├── Hyperion.mobi
              │   ├── lvl.last

              │   └── Hyperion.mobi
              │   │       └── Hyperion.txt -> /data/library/e/n/g/derived/Hyperion.mobi/./lvl.1/Hyperion.mobi/Hyperion.txt
              │   └── lvl.1
              │       └── Hyperion.mobi
              │           └── Hyperion.txt

Očisti datoteko

Datoteka txt vsebuje glavo in nogo z informacijami Gutenberg. Uporabili bomo P_rer, da datoteko 'očistimo'.

        P_rer 's{.+?(Title:\sHyperion)}{$1}xms' Hyperion.txt
        P_rer 's{\*\*\*\sEND\sOF\sTHE\sPROJECT.+}{}xms' Hyperion.txt

Odstranitev teh razdelkov bo zagotovila, da bodo ekstrahirani jezikovni podatki pravilni. (Ponavljanje tokenov lahko vpliva na porazdelitev frekvenc.)

Tokenizacija

tokenizacija

V PMSE obstaja preprosto preddefiniran tokenizator in segmentator stavkov za angleščino. Oba uporabljata P_rer in imata obliko makra. Makro je tukaj lupinski ovoj - skript, ki je klican z določenimi argumenti.

         MAK_tokenize Hyperion.txt eng
         MAK_1s1l -l eng -i Hyperion.txt

Ekstrahiranje N-gramov

diagram n-gramov

Osnovna funkcionalnost PMSE je generiranje n-gramov in štetje različnih statističnih informacij. Naslednja koda bo vzela kot vhod vse txt datoteke v imeniku derived in bo generirala bigrame ter preštela njihov MI-rezultat.

 P_gnp --in derived/ --cluster count --ifilter '+token=\A[\w\d]+\z' --out bigrams --measure 'mi=all' --report 3 

Opomba: Uporabili smo privzeto specifikacijo n-gramov. Parameter je oblike: --ngrams 2 2 ' ' (n-grami velikosti 2, iz okna velikosti 2 in ločilo med tokeni je presledek).

Vizualizacija in filtriranje

Bigrami so shranjeni kot interni PMSE objekt. Skript P_dvf lahko pretvori to strukturo v različne formate. Prav tako lahko filtrira in razvrsti rezultate.

 P_dvf --in mi_1\|2 --filter '($value < 9) | ($key =~   m{\b(that|this|was|and|we|she|he|I|a|is|are|the|be)\b}xmsi)' --sort   '+val' 

Kupi PMSE

e-pošta: sales@petamem.com
telefon: +49 911 894 6455
faks: +420 284 680 110

Stroški licenciranja

Verjeli ali ne, zdaj pride dober del. PMSE je komercialni izdelek za akademski sektor in PetaMem vam želi ponuditi paket "vse vključeno, brez težav, brez skrbi". Prav tako želimo, da je ta programska oprema cenovno dostopna za vsakogar. Na voljo sta dva preprosta modela licenciranja: Po uporabniku na delovno postajo, ki je 49,- EUR na mesec ali za oddelek, ki je 499,- EUR na mesec brez omejitev števila uporabnikov ali delovnih postaj (vključno s študenti). Vsa cena je + 19% DDV, ki ne velja, če ste zunaj Nemčije in imate DDV številko.

Pogoji licenciranja

Obljubljamo licenciranje "brez težav, brez skrbi". S stroški licenciranja pridobite ne le pravico do uporabe programske opreme, ampak tudi brezplačne nadgradnje programske opreme in brezplačno podporo. Kakršne koli nadgradnje/znižanje licence so intuitivne in naredijo-kar-mislim. Imeli ste pet posameznih licenc in bi želeli licenco za oddelek ali obratno? Sploh ni problema! Preprosto nas obvestite po e-pošti in prilagodimo pogoje licenciranja isti delovni dan.

In še bolje: naše podjetje je predano odprti kodi in ko se zanašamo na komercialno programsko opremo, je le malo stvari, ki se jim želimo izogniti bolj kot vezanosti na dobavitelja. Morda imate podobne pomisleke pri zanašanju na komercialni izdelek in to popolnoma razumemo. Če se odločite končati licenčno naročnino na PMSE - dobro - obdržite PMSE in smete ga še naprej uporabljati. Izgubite brezplačne nadgradnje in brezplačno podporo, a še naprej uporabljate programsko opremo. Brezplačno.

Če imate kakršna koli dodatna vprašanja glede licenciranja ali bi radi naročili izdelek, nas prosim ne oklevajte kontaktirati sales@petamem.com.

Če imate dodatna podrobna tehnična vprašanja, prosim kontaktirajte support@petamem.com

zapri