Ta vodič naj prikaže, kako delati s PMSE (in morda kako začeti). Predstavil vam bo osnovne funkcije, ki predstavljajo jedro funkcionalnosti PMSE.
Univerzalna programska oprema in vmesna programska oprema za SNLP. UNIX filozofija: zbirka gradnikov iz majhnih enot, ki jih je mogoče kombinirati v novo orodje. Jezikovno neodvisno. Napisano v Perlu, avtomatizirano testiranje z visoko pokritostjo kode, UTF-8 podprto. Temelji na CLI, učinkovito in vzporedno procesiranje. Temeljita dokumentacija. Na voljo interaktivni način.
Najprej moramo definirati delovno okolje. PMSE je zasnovan za obdelavo dokumentov neodvisno od jezika, v katerem so napisani. Zato smo sprejeli strategijo, kako ravnati z dokumenti v različnih jezikih. Vzpostavili smo koren za knjižnico, ki se nahaja v:
/data/library/
Ko je koren knjižnice nastavljen, lahko dodamo imenike za določene jezike. Koda je izpeljana iz specifikacije jezika iso-639-3. Imenik za angleščino bo torej:
/data/library/e/n/g/.
Če želite zgraditi svojo knjižnico od začetka, boste potrebovali imenik, v katerem bodo izvirne datoteke. Temu imeniku pravimo original, ko imate svoje datoteke, jih morate obdelati (pretvoriti v navadno besedilo, tokenizirati, ekstrahirati n-grame in tako naprej), da dobite želene informacije. Obdelane datoteke bodo shranjene v imeniku derived.
Skript P_daf je bil zasnovan za zagotavljanje ogrodja za avtomatizirani prenos. P_daf prebere INI datoteko, v kateri je naveden URL cilja. Tu je primer zelo preproste INI datoteke imenovane demo.ini:
[global]
lastfetch = 2013-01-30 00:00:00
interval = 6 months
name = demo
[Hyperion]
threads = 1;
BASE = http://www.gutenberg.org
url = %BASE%/ebooks/5436
match = a\shref="(?http://www.gutenberg.org/ebooks/(?\d+).(?kindle).noimages)"\stype
get = $file store = "$ENV{PMCORP_ROOT}/e/n/g/original/Hyperion.mobi"
Pomen razdelkov in argumentov v datoteki je opisan v PMSE priročniku. Datoteka demo.ini mora biti shranjena v imeniku $PMSE_BIN/cfg/daf.d/. Če ste INI postavili tja, lahko zdaj pokličete skript:
P_daf --fetch demo
Po prenosu bi morala biti datoteka 5436.epub v imeniku /data/library/e/n/g/original/.
Najprej pojdite v knjižnico in nato pokličite skript P_dmf. Za pretvorbo MOBI formata v txt morate namestiti calibre upravljalnik e-knjig, ki ga P_dmf uporablja kot eno od integriranih orodij. Lahko uporabite zastavico PM_CONVERTOR_WARNINGS=1 za prikaz pretvornikov, ki manjkajo v vašem sistemu.
cd /data/library/e/n/g/
PM_CONVERTOR_WARNINGS=1 P_dmf --in /data/library/e/n/g/original/
Če je vse šlo dobro, bi morali videti imenik /data/library/e/n/g/derived/. Vsebovati mora besedilno datoteko z imenom Hyperion.txt. Prikažimo njeno strukturo:
tree derived/
derived/
├── Hyperion.mobi
│ ├── lvl.last
│ └── Hyperion.mobi
│ │ └── Hyperion.txt -> /data/library/e/n/g/derived/Hyperion.mobi/./lvl.1/Hyperion.mobi/Hyperion.txt
│ └── lvl.1
│ └── Hyperion.mobi
│ └── Hyperion.txt
Datoteka txt vsebuje glavo in nogo z informacijami Gutenberg. Uporabili bomo P_rer, da datoteko 'očistimo'.
P_rer 's{.+?(Title:\sHyperion)}{$1}xms' Hyperion.txt
P_rer 's{\*\*\*\sEND\sOF\sTHE\sPROJECT.+}{}xms' Hyperion.txt
Odstranitev teh razdelkov bo zagotovila, da bodo ekstrahirani jezikovni podatki pravilni. (Ponavljanje tokenov lahko vpliva na porazdelitev frekvenc.)
V PMSE obstaja preprosto preddefiniran tokenizator in segmentator stavkov za angleščino. Oba uporabljata P_rer in imata obliko makra. Makro je tukaj lupinski ovoj - skript, ki je klican z določenimi argumenti.
MAK_tokenize Hyperion.txt eng
MAK_1s1l -l eng -i Hyperion.txt
Osnovna funkcionalnost PMSE je generiranje n-gramov in štetje različnih statističnih informacij. Naslednja koda bo vzela kot vhod vse txt datoteke v imeniku derived in bo generirala bigrame ter preštela njihov MI-rezultat.
P_gnp --in derived/ --cluster count --ifilter '+token=\A[\w\d]+\z' --out bigrams --measure 'mi=all' --report 3
Opomba: Uporabili smo privzeto specifikacijo n-gramov. Parameter je oblike: --ngrams 2 2 ' ' (n-grami velikosti 2, iz okna velikosti 2 in ločilo med tokeni je presledek).
Bigrami so shranjeni kot interni PMSE objekt. Skript P_dvf lahko pretvori to strukturo v različne formate. Prav tako lahko filtrira in razvrsti rezultate.
P_dvf --in mi_1\|2 --filter '($value < 9) | ($key =~ m{\b(that|this|was|and|we|she|he|I|a|is|are|the|be)\b}xmsi)' --sort '+val'
e-pošta: sales@petamem.com
telefon: +49 911 894 6455
faks: +420 284 680 110
Verjeli ali ne, zdaj pride dober del. PMSE je komercialni izdelek za akademski sektor in PetaMem vam želi ponuditi paket "vse vključeno, brez težav, brez skrbi". Prav tako želimo, da je ta programska oprema cenovno dostopna za vsakogar. Na voljo sta dva preprosta modela licenciranja: Po uporabniku na delovno postajo, ki je 49,- EUR na mesec ali za oddelek, ki je 499,- EUR na mesec brez omejitev števila uporabnikov ali delovnih postaj (vključno s študenti). Vsa cena je + 19% DDV, ki ne velja, če ste zunaj Nemčije in imate DDV številko.
Obljubljamo licenciranje "brez težav, brez skrbi". S stroški licenciranja pridobite ne le pravico do uporabe programske opreme, ampak tudi brezplačne nadgradnje programske opreme in brezplačno podporo. Kakršne koli nadgradnje/znižanje licence so intuitivne in naredijo-kar-mislim. Imeli ste pet posameznih licenc in bi želeli licenco za oddelek ali obratno? Sploh ni problema! Preprosto nas obvestite po e-pošti in prilagodimo pogoje licenciranja isti delovni dan.
In še bolje: naše podjetje je predano odprti kodi in ko se zanašamo na komercialno programsko opremo, je le malo stvari, ki se jim želimo izogniti bolj kot vezanosti na dobavitelja. Morda imate podobne pomisleke pri zanašanju na komercialni izdelek in to popolnoma razumemo. Če se odločite končati licenčno naročnino na PMSE - dobro - obdržite PMSE in smete ga še naprej uporabljati. Izgubite brezplačne nadgradnje in brezplačno podporo, a še naprej uporabljate programsko opremo. Brezplačno.
Če imate kakršna koli dodatna vprašanja glede licenciranja ali bi radi naročili izdelek, nas prosim ne oklevajte kontaktirati sales@petamem.com.
Če imate dodatna podrobna tehnična vprašanja, prosim kontaktirajte support@petamem.com
zapri