Pradžia

Ši instrukcija turėtų iliustruoti, kaip dirbti su PMSE (ir galbūt kaip pradėti.) Ji supažindins jus su pagrindinėmis funkcijomis, kurios sudaro pagrindinį PMSE funkcionalumą.

Duomenų biblioteka

Universali programinės įrangos paketas ir tarpinė programinė įranga SNLP. UNIX filosofija: mažų vienetų rinkinio, kuris gali būti sujungtas į naują įrankių grandinę. Nepriklausoma nuo kalbos. Parašyta Perl kalba, automatizuotas testų rinkinys su aukštu kodo aprėptimi, UTF-8 suvokianti. Pagrįsta komandinė eilute, efektyvus ir lygiagretusis apdorojimas. Išsami dokumentacija. Galimas interaktyvus režimas.

Pirmiausia turime apibrėžti darbo aplinką. PMSE yra sukurta apdoroti dokumentus nepriklausomai nuo kalbos, kuria jie parašyti. Todėl priėmėme strategiją, kaip susidoroti su dokumentais įvairiomis kalbomis. Nustatėme bibliotekos šaknį, kuri yra įdiegta:

/data/library/

Kai bibliotekos šaknis nustatyta, galima pridėti katalogus konkrečioms kalboms. Kodas yra išvestas iš iso-639-3 kalbos specifikacijos. Anglų kalbos katalogas bus toks:

 /data/library/e/n/g/. 

Jei norite sukurti savo biblioteką nuo nulio, jums reikės katalogo, kuriame bus išdėstyti šaltinių failai. Mes vadiname tokį katalogą original, kai turėsite savo failus, turite juos apdoroti (konvertuoti į paprastą tekstą, atlikti tokenizaciją, n-gramų ištraukimą ir pan.), kad gautumėte norimą informaciją. Apdoroti failai bus saugomi derived kataloge.

Gauti failą

Get File Diagram

P_daf skriptas buvo sukurtas automatinio atsisiuntimo sistemai. P_daf skaito INI failą, kuriame nurodyta tikslo URL. Čia yra labai paprastas INI failo pavyzdys vadinamas demo.ini:

     [global]
                  lastfetch = 2013-01-30 00:00:00
                  interval  = 6 months
                  name      = demo

                  [Hyperion]
                  threads = 1;
                  BASE  = http://www.gutenberg.org
                  url   = %BASE%/ebooks/5436
                  match = a\shref="(?http://www.gutenberg.org/ebooks/(?\d+).(?kindle).noimages)"\stype
                  get   = $file        store = "$ENV{PMCORP_ROOT}/e/n/g/original/Hyperion.mobi"

Skyrius ir argumentų faile reikšmė yra aprašyta PMSE vadove. demo.ini failas turi būti saugomas $PMSE_BIN/cfg/daf.d/ kataloge. Jei patalpinote INI ten, dabar galite iškviesti skriptą:

 P_daf --fetch demo 

Po atsisiuntimo, failas 5436.epub turėtų būti patalpintas /data/library/e/n/g/original/ kataloge.

Konvertuoti failą

Pirma, eikite į biblioteką ir tada iškvieskite P_dmf skriptą. Norėdami konvertuoti MOBI formatą į txt, turėtumėte įdiegti calibre e-knygų tvarkyklę, kurią P_dmf naudoja kaip vieną iš integruotų įrankių. Galite naudoti PM_CONVERTOR_WARNINGS=1 vėliavėlę, kad būtų rodomos konverteriai, kurių trūksta jūsų sistemoje.

        cd /data/library/e/n/g/
        PM_CONVERTOR_WARNINGS=1 P_dmf --in /data/library/e/n/g/original/ 

Jei viskas pavyko gerai, turėtumėte matyti /data/library/e/n/g/derived/ katalogą. Jame turėtų būti teksto failas pavadinimu Hyperion.txt. Parodykime jo struktūrą:

 tree derived/
             derived/
              ├── Hyperion.mobi
              │   ├── lvl.last

              │   └── Hyperion.mobi
              │   │       └── Hyperion.txt -> /data/library/e/n/g/derived/Hyperion.mobi/./lvl.1/Hyperion.mobi/Hyperion.txt
              │   └── lvl.1
              │       └── Hyperion.mobi
              │           └── Hyperion.txt

Išvalyti failą

Txt failas turi antraštę ir poraštę su Gutenberg informacija. Naudosime P_rer, kad 'išvalytume' failą.

        P_rer 's{.+?(Title:\sHyperion)}{$1}xms' Hyperion.txt
        P_rer 's{\*\*\*\sEND\sOF\sTHE\sPROJECT.+}{}xms' Hyperion.txt

Šių skyrių pašalinimas užtikrins, kad išgauti lingvistiniai duomenys bus teisingi. (Žetonų pasikartojimas gali paveikti dažnių pasiskirstymą.)

Tokenizacija

Tokenization

PMSE egzistuoja paprastas iš anksto apibrėžtas tokenizatorius ir sakinių segmentatorius anglų kalbai. Abu naudoja P_rer ir turi makro formą. Makro čia yra apvalkalo apvalkalas - skriptas, kuris yra kviečiamas su konkrečiais argumentais.

         MAK_tokenize Hyperion.txt eng
         MAK_1s1l -l eng -i Hyperion.txt

N-gramų ištraukimas

n-grams diagram

Pagrindinė PMSE funkcija yra n-gramų generavimas ir įvairios statistinės informacijos skaičiavimas. Šis kodas priims kaip įvestį visus txt failus derived kataloge ir generuos bigramas bei skaičiuos jų MI balą.

 P_gnp --in derived/ --cluster count --ifilter '+token=\A[\w\d]+\z' --out bigrams --measure 'mi=all' --report 3 

Pastaba: Mes naudojome numatytąją n-gramų specifikaciją. Parametras atrodo taip: --ngrams 2 2 ' ' (n-gramos dydžio 2, iš lango dydžio 2 ir skyrybos ženklas tarp žetonų yra tarpas).

Vizualizacija ir filtravimas

Bigramos saugomos kaip vidinis PMSE objektas. P_dvf skriptas gali konvertuoti šią struktūrą į įvairius formatus. Taip pat jis gali filtruoti ir rūšiuoti rezultatus.

 P_dvf --in mi_1\|2 --filter '($value < 9) | ($key =~   m{\b(that|this|was|and|we|she|he|I|a|is|are|the|be)\b}xmsi)' --sort   '+val' 

Pirkti PMSE

el. paštas: sales@petamem.com
telefonas: +49 911 894 6455
faksas: +420 284 680 110

Licencijos kaina

Tikėkite ar ne, dabar ateina gera dalis. PMSE yra komercinis produktas akademiniam sektoriui ir PetaMem nori pasiūlyti jums „viskas įskaičiuota, be rūpesčių, be problemų" paketą. Taip pat norime, kad ši programinė įranga būtų prieinama visiems. Yra du paprasti licencijavimo modeliai: vienam vartotojui vienai darbo vietai, kuris yra 49,- EUR per mėnesį arba visam departamentui, kuris yra 499,- EUR per mėnesį be apribojimų vartotojų ar darbo vietų skaičiui (įskaitant studentus). Visos kainos yra + 19% PVM, kuris nėra taikomas, jei esate už Vokietijos ribų ir turite PVM mokėtojo kodą.

Licencijavimo sąlygos

Pažadame „be rūpesčių, be problemų" licencijavimą. Su licencijos kaina jūs gaunate ne tik teisę naudoti programinę įrangą, bet ir nemokamus programinės įrangos atnaujinimus bei nemokamą palaikymą. Bet kokie licencijos pakeitimai į viršų/žemyn yra intuityvūs ir atitinka tai, ką norite. Turėjote penkias individualias licencijas ir norėtumėte departamento licenciją ar atvirkščiai? Jokių problemų! Tiesiog praneškite mums el. paštu ir mes pataisysime licencijavimo sąlygas tą pačią darbo dieną.

Dar geriau: mūsų įmonė yra įsipareigojusi atviro kodo principams ir kai pasikliauname komercine programine įranga, yra tik keli dalykai, kurių norime išvengti labiau nei tiekėjo priklausomybės. Galite turėti panašių susirūpinimų, kai pasikliausite komerciniu produktu, ir mes visiškai tai suprantame. Jei nuspręsite nutraukti PMSE licencijos prenumeratą - na - pasilaikote PMSE ir galite jį toliau naudoti. Prarandate nemokamus atnaujinimus ir nemokamą palaikymą, bet toliau naudojate programinę įrangą. Nemokamai.

Jei turite daugiau klausimų apie licencijavimą ar norėtumėte užsisakyti produktą, nedvejodami susisiekite sales@petamem.com.

Jei turite daugiau išsamių techninių klausimų, prašome susisiekti support@petamem.com

uždaryti