Početak

Ovaj prikaz rada trebao bi ilustrirati kako raditi s PMSE (i možda kako započeti). Predstavit će vam osnovne funkcije koje predstavljaju jezgru funkcionalnosti PMSE-a.

Biblioteka podataka

Generički softverski paket i middleware za SNLP. UNIX filozofija: građevni komplet malih jedinica koje se mogu kombinirati u novi lanac alata. Jezično neovisan. Napisan u Perlu, automatizirani testni paket visoke pokrivenosti koda, podržava UTF-8. Temeljen na CLI-ju, učinkovita & paralelna obrada. Detaljna dokumentacija. Dostupan je interaktivni način rada.

Prvo moramo definirati radno okruženje. PMSE je dizajniran za obradu dokumenata neovisno o jeziku na kojem su napisani. Stoga smo usvojili strategiju kako postupati s dokumentima na različitim jezicima. Uspostavili smo korijen za biblioteku koja se nalazi u:

/data/library/

Kada je korijen biblioteke postavljen, mogu se dodati direktoriji za specifične jezike. Kod je izveden iz specifikacije jezika iso-639-3. Direktorij za engleski će stoga biti:

 /data/library/e/n/g/. 

Ako želite izgraditi svoju biblioteku od početka, trebat će vam direktorij u kojem će se nalaziti izvorne datoteke. Takav direktorij nazivamo original, nakon što dobijete svoje datoteke, trebate ih obraditi (konvertirati u obični tekst, provesti tokenizaciju, ekstrakciju n-grama i tako dalje) kako biste dobili željene informacije. Obrađene datoteke bit će pohranjene u direktoriju derived.

Nabavljanje datoteke

Get File Diagram

Skripta P_daf dizajnirana je za pružanje okvira za automatizirano preuzimanje. P_daf čita INI datoteku u kojoj je specificiran URL cilja. Evo primjera vrlo jednostavne INI datoteke nazvane demo.ini:

     [global]
              lastfetch = 2013-01-30 00:00:00
              interval  = 6 months
              name      = demo

              [Hyperion]
              threads = 1;
              BASE  = http://www.gutenberg.org
              url   = %BASE%/ebooks/5436
              match = a\shref="(?http://www.gutenberg.org/ebooks/(?\d+).(?kindle).noimages)"\stype
              get   = $file        store = "$ENV{PMCORP_ROOT}/e/n/g/original/Hyperion.mobi"

Značenje odjeljaka i argumenata u datoteci opisano je u PMSE priručniku. Datoteka demo.ini mora biti pohranjena u direktoriju $PMSE_BIN/cfg/daf.d/. Ako ste postavili INI tamo, sada možete pozvati skriptu:

 P_daf --fetch demo 

Nakon preuzimanja, datoteka 5436.epub trebala bi biti smještena u direktoriju /data/library/e/n/g/original/.

Konverzija datoteke

Prvo, idite u biblioteku i zatim pozovite skriptu P_dmf. Za pretvaranje MOBI formata u txt, trebali biste instalirati calibre upravitelja e-knjiga, koji P_dmf koristi kao jedan od integriranih alata. Možete koristiti zastavicu PM_CONVERTOR_WARNINGS=1 za prikaz konvertora koji nedostaju na vašem sustavu.

        cd /data/library/e/n/g/
        PM_CONVERTOR_WARNINGS=1 P_dmf --in /data/library/e/n/g/original/ 

Ako je sve prošlo dobro, trebali biste vidjeti direktorij /data/library/e/n/g/derived/. Trebao bi sadržavati tekstualnu datoteku nazvanu Hyperion.txt. Prikažimo njenu strukturu:

 tree derived/
             derived/
              ├── Hyperion.mobi
              │   ├── lvl.last

              │   └── Hyperion.mobi
              │   │       └── Hyperion.txt -> /data/library/e/n/g/derived/Hyperion.mobi/./lvl.1/Hyperion.mobi/Hyperion.txt
              │   └── lvl.1
              │       └── Hyperion.mobi
              │           └── Hyperion.txt

Čišćenje datoteke

Txt datoteka sadrži zaglavlje i podnožje s Gutenberg informacijama. Koristit ćemo P_rer kako bismo 'očistili' datoteku.

        P_rer 's{.+?(Title:\sHyperion)}{$1}xms' Hyperion.txt
        P_rer 's{\*\*\*\sEND\sOF\sTHE\sPROJECT.+}{}xms' Hyperion.txt

Uklanjanje ovih odjeljaka će osigurati da ekstrahirani lingvistički podaci budu točni. (Ponavljanje tokena može utjecati na distribuciju frekvencija.)

Tokenizacija

Tokenization

U PMSE-u postoji jednostavan predefinirani tokenizator i segmentator rečenica za engleski. Oba koriste P_rer i imaju oblik makroa. Makro je ovdje shell wrapper - skripta koja se poziva s određenim argumentima.

         MAK_tokenize Hyperion.txt eng
         MAK_1s1l -l eng -i Hyperion.txt

Ekstrakcija N-grama

n-grams diagram

Jezgra funkcionalnosti PMSE-a je generiranje n-grama i brojanje različitih statističkih informacija. Sljedeći kod će uzeti kao ulaz sve txt datoteke u direktoriju derived i generirat će bigrame te izračunati njihov MI-score.

 P_gnp --in derived/ --cluster count --ifilter '+token=\A[\w\d]+\z' --out bigrams --measure 'mi=all' --report 3 

Napomena: Koristili smo zadanu specifikaciju n-grama. Parametar izgleda ovako: --ngrams 2 2 ' ' (n-grami veličine 2, iz prozora veličine 2 i separator između tokena je razmak).

Vizualizacija i filtriranje

Bigrami su pohranjeni kao interni PMSE objekt. Skripta P_dvf je sposobna konvertirati ovu strukturu u različite formate. Također je u mogućnosti filtrirati i sortirati rezultate.

 P_dvf --in mi_1\|2 --filter '($value < 9) | ($key =~   m{\b(that|this|was|and|we|she|he|I|a|is|are|the|be)\b}xmsi)' --sort   '+val' 

Kupi PMSE

email: sales@petamem.com
telefon: +49 911 894 6455
fax: +420 284 680 110

Trošak licenciranja

Vjerujte ili ne, sada dolazi najbolji dio. PMSE je komercijalni proizvod za akademski sektor i PetaMem vam želi ponuditi "sve uključeno, bez problema, bez briga" paket. Također želimo da ovaj softverski paket bude pristupačan svima. Postoje dva jednostavna modela licenciranja: Po korisniku po radnoj stanici, što je 49,- EUR mjesečno ili za cijeli odjel, što je 499,- EUR mjesečno bez ograničenja broja korisnika ili radnih stanica (uključujući studente). Sve cijene su + 19% PDV, koji se ne primjenjuje ako ste izvan Njemačke i imate VAT-Id.

Uvjeti licenciranja

Obećavamo licenciranje "bez problema, bez briga". S troškom licenciranja dobivate ne samo pravo korištenja softvera, već i besplatne nadogradnje softvera i besplatnu podršku. Sve nadogradnje/smanjenja licenci su intuitivne i rade što mislite. Imate pet pojedinačnih licenci i željeli biste licencu za odjel ili obrnuto? Nikakav problem! Jednostavno nas obavijestite putem e-pošte i prilagodit ćemo uvjete licenciranja istog radnog dana.

A bit će još bolje: naša tvrtka je predana open source-u i kada se oslanjamo na komercijalni softver, postoji malo stvari koje želimo izbjeći više od vezanosti na dobavljača. Možda imate slične brige kada se oslanjate na komercijalni proizvod i u potpunosti to razumijemo. Ako odlučite prekinuti licencnu pretplatu na PMSE - pa - zadržavate PMSE i dopušteno vam je nastaviti ga koristiti. Gubite besplatne nadogradnje i besplatnu podršku, ali nastavljate koristiti softver. Besplatno.

Ako imate dodatna pitanja u vezi licenciranja ili želite naručiti proizvod, molimo ne ustručavajte se kontaktirati sales@petamem.com.

Ako imate dodatna detaljna tehnička pitanja, molimo kontaktirajte support@petamem.com

zatvori