Acest ghid ar trebui să ilustreze cum să lucrați cu PMSE (și poate cum să începeți.) Vă va introduce funcțiile de bază care reprezintă funcționalitatea principală a PMSE.
Suită software generică și middleware pentru SNLP. Filosofia UNIX: un set de construcție de unități mici care pot fi combinate într-un nou lanț de instrumente. Independent de limbă. Scris în Perl, test suite automatizat cu acoperire de cod ridicată, compatibil UTF-8. Bazat pe CLI, procesare eficientă și paralelă. Documentație completă. Mod interactiv disponibil.
Trebuie să definim mai întâi mediul de lucru. PMSE este proiectat să proceseze documente independent de limba în care sunt scrise. Am adoptat prin urmare o strategie privind modul de gestionare a documentelor în diverse limbi. Am stabilit o rădăcină pentru biblioteca care este plasată în:
/data/library/
Când rădăcina bibliotecii este setată, pot fi adăugate directoare pentru limbi specifice. Codul este derivat din specificația de limbă iso-639-3. Directorul pentru engleză va fi astfel:
/data/library/e/n/g/.
Dacă doriți să construiți biblioteca de la zero, veți avea nevoie de un director în care vor fi plasate fișierele sursă. Numim un astfel de director original, odată ce aveți fișierele, trebuie să le procesați (convertire în text simplu, tokenizare, extragerea n-gramelor și așa mai departe) pentru a obține informațiile dorite. Fișierele procesate vor fi stocate în directorul derived.
Un script P_daf a fost proiectat pentru a furniza un cadru pentru descărcarea automatizată. P_daf citește un fișier INI, în care este specificată adresa URL a țintei. Iată un exemplu de fișier INI foarte simplu numit demo.ini:
[global]
lastfetch = 2013-01-30 00:00:00
interval = 6 months
name = demo
[Hyperion]
threads = 1;
BASE = http://www.gutenberg.org
url = %BASE%/ebooks/5436
match = a\shref="(?http://www.gutenberg.org/ebooks/(?\d+).(?kindle).noimages)"\stype
get = $file store = "$ENV{PMCORP_ROOT}/e/n/g/original/Hyperion.mobi"
Semnificația secțiunilor și argumentelor din fișier este descrisă în manualul PMSE. Fișierul demo.ini trebuie stocat în directorul $PMSE_BIN/cfg/daf.d/. Dacă ați plasat fișierul INI acolo, acum puteți apela scriptul:
P_daf --fetch demo
După descărcare, fișierul 5436.epub ar trebui să fie plasat în directorul /data/library/e/n/g/original/.
Mai întâi, mergeți la bibliotecă și apoi apelați scriptul P_dmf. Pentru a converti formatul MOBI în txt, ar trebui să instalați managerul de e-book calibre, care este utilizat de P_dmf ca unul dintre instrumentele integrate. Puteți utiliza steagul PM_CONVERTOR_WARNINGS=1 pentru a afișa convertorii care lipsesc pe sistemul dvs.
cd /data/library/e/n/g/
PM_CONVERTOR_WARNINGS=1 P_dmf --in /data/library/e/n/g/original/
Dacă totul a mers bine, ar trebui să vedeți directorul /data/library/e/n/g/derived/. Acesta ar trebui să conțină un fișier text numit Hyperion.txt. Să afișăm structura sa:
tree derived/
derived/
├── Hyperion.mobi
│ ├── lvl.last
│ └── Hyperion.mobi
│ │ └── Hyperion.txt -> /data/library/e/n/g/derived/Hyperion.mobi/./lvl.1/Hyperion.mobi/Hyperion.txt
│ └── lvl.1
│ └── Hyperion.mobi
│ └── Hyperion.txt
Fișierul txt conține un antet și un subsol cu informații Gutenberg. Vom folosi P_rer pentru a 'curăța' fișierul.
P_rer 's{.+?(Title:\sHyperion)}{$1}xms' Hyperion.txt
P_rer 's{\*\*\*\sEND\sOF\sTHE\sPROJECT.+}{}xms' Hyperion.txt
Eliminarea acestor secțiuni va asigura că datele lingvistice extrase vor fi corecte. (Repetarea token-urilor poate afecta distribuția frecvențelor.)
În PMSE există un tokenizator simplu predefinit și un segmentator de propoziții pentru engleză. Ambele folosesc P_rer și au forma unui macro. Macro-ul aici este un wrapper shell - un script cu care este apelat cu argumente specifice.
MAK_tokenize Hyperion.txt eng
MAK_1s1l -l eng -i Hyperion.txt
Funcționalitatea principală a PMSE este generarea de n-grame și numărarea diverselor informații statistice. Următorul cod va lua ca intrare toate fișierele txt din directorul derived și va genera bigrame și va calcula scorul lor MI.
P_gnp --in derived/ --cluster count --ifilter '+token=\A[\w\d]+\z' --out bigrams --measure 'mi=all' --report 3
Notă: Am folosit o specificație implicită de n-grame. Parametrul arată astfel: --ngrams 2 2 ' ' (n-grame de dimensiunea 2, dintr-o fereastră de dimensiunea 2 și separatorul dintre token-uri este un spațiu alb).
Bigramele sunt stocate ca obiect intern PMSE. Scriptul P_dvf este capabil să convertească această structură în diverse formate. De asemenea, este capabil să filtreze și să sorteze rezultatele.
P_dvf --in mi_1\|2 --filter '($value < 9) | ($key =~ m{\b(that|this|was|and|we|she|he|I|a|is|are|the|be)\b}xmsi)' --sort '+val'
email: sales@petamem.com
telefon: +49 911 894 6455
fax: +420 284 680 110
Credeți sau nu, acum vine partea bună. PMSE este un produs comercial pentru sectorul academic și PetaMem dorește să vă ofere un pachet „totul inclus, fără probleme, fără griji". De asemenea, dorim ca această suită software să fie accesibilă pentru toată lumea. Există două modele simple de licențiere: Per utilizator per stație de lucru, care este 49,- EUR pe lună sau la nivel de departament, care este 499,- EUR pe lună fără limite de număr de utilizatori sau stații de lucru (inclusiv studenți). Toate prețurile sunt + 19% TVA, care nu se aplică dacă sunteți în afara Germaniei și aveți un TVA-Id.
Promitem licențiere „fără probleme, fără griji". Cu costul licenței obțineți nu doar dreptul de a utiliza software-ul, ci și actualizări gratuite ale software-ului și asistență gratuită. Orice actualizări/retrogradări de licență sunt intuitive și fac-ce-vreau-eu. Ați avut cinci licențe individuale și doriți o licență de departament sau viceversa? Nicio problemă! Pur și simplu informați-ne prin email și vom ajusta condițiile de licențiere în aceeași zi lucrătoare.
Devine și mai bine: compania noastră este dedicată open source și când ne bazăm pe software comercial, există puține lucruri pe care dorim să le evităm mai mult decât o blocare la furnizor. S-ar putea să aveți preocupări similare când vă bazați pe un produs comercial și înțelegem pe deplin acest lucru. Dacă decideți să încheiați abonamentul de licențiere pentru PMSE - ei bine - păstrați PMSE și aveți voie să continuați să-l utilizați. Pierdeți actualizările gratuite și asistența gratuită, dar continuați să folosiți software-ul. Gratuit.
Dacă aveți întrebări suplimentare referitoare la licențiere sau doriți să comandați produsul, vă rugăm să nu ezitați să contactați sales@petamem.com.
Dacă aveți întrebări tehnice detaliate suplimentare, vă rugăm să contactați support@petamem.com
închide