Alustamine

See läbikäik peaks illustreerima, kuidas töötada PMSE-ga (ja võib-olla kuidas alustada). See tutvustab teile põhifunktsioone, mis esindavad PMSE tuumfunktsionaalsust.

Andmekogu

Üldine tarkvarakomplekt ja vahevara SNLP jaoks. UNIX filosoofia: väikeste üksuste ehituskomplekt, mida saab kombineerida uueks töövahendiks. Keelest sõltumatu. Kirjutatud Perlis, automaatne testimissüsteem kõrge koodikattega, UTF-8 teadlik. CLI põhine, tõhus ja paralleelne töötlus. Põhjalik dokumentatsioon. Interaktiivne režiim saadaval.

Peame kõigepealt määratlema töökeskkonna. PMSE on loodud töötlema dokumente sõltumatult keelest, milles need on kirjutatud. Seetõttu võtsime kasutusele strateegia, kuidas tegeleda erinevates keeltes dokumentidega. Lõime raamatukogu juure, mis asub:

/data/library/

Kui raamatukogu juur on seatud, võib lisada kataloogid konkreetsete keelte jaoks. Kood on tuletatud iso-639-3 keele spetsifikatsioonist. Inglise keele kataloog on seega:

 /data/library/e/n/g/. 

Kui soovite oma raamatukogu nullist üles ehitada, vajate kataloogi, kuhu lähtefailid paigutatakse. Me nimetame sellist kataloogi original, kui teil on failid olemas, peate neid töötlema (teisendama lihttekstiks, tegema tokeniseerimist, n-grammide väljavõtmist ja nii edasi), et saada soovitud informatsiooni. Töödeldud failid salvestatakse derived kataloogi.

Faili hankimine

Faili Hankimise Diagramm

P_daf skript loodi pakkuma raamistikku automaatseks allalaadimiseks. P_daf loeb INI faili, milles on määratud sihtmärgi URL. Siin on näide väga lihtsast INI failist nimega demo.ini:

     [global]
                  lastfetch = 2013-01-30 00:00:00
                  interval  = 6 months
                  name      = demo

                  [Hyperion]
                  threads = 1;
                  BASE  = http://www.gutenberg.org
                  url   = %BASE%/ebooks/5436
                  match = a\shref="(?http://www.gutenberg.org/ebooks/(?\d+).(?kindle).noimages)"\stype
                  get   = $file        store = "$ENV{PMCORP_ROOT}/e/n/g/original/Hyperion.mobi"

Sektsionide ja argumentide tähendus failis on kirjeldatud PMSE käsiraamatus. demo.ini fail peab olema salvestatud $PMSE_BIN/cfg/daf.d/ kataloogi. Kui olete INI sinna pannud, võite nüüd kutsuda skripti:

 P_daf --fetch demo 

Peale allalaadimist peaks fail 5436.epub olema /data/library/e/n/g/original/ kataloogis.

Faili teisendamine

Esiteks minge raamatukogusse ja seejärel kutsuge P_dmf skripti. MOBI formaadi teisendamiseks txt-ks peaksite installima calibre e-raamatu halduri, mida P_dmf kasutab ühe integreeritud tööriistana. Võite kasutada PM_CONVERTOR_WARNINGS=1 lippu, et kuvada teisendajaid, mis teie süsteemis puuduvad.

        cd /data/library/e/n/g/
        PM_CONVERTOR_WARNINGS=1 P_dmf --in /data/library/e/n/g/original/ 

Kui kõik läks hästi, peaksite nägema /data/library/e/n/g/derived/ kataloogi. See peaks sisaldama tekstifaili nimega Hyperion.txt. Kuvame selle struktuuri:

 tree derived/
             derived/
              ├── Hyperion.mobi
              │   ├── lvl.last

              │   └── Hyperion.mobi
              │   │       └── Hyperion.txt -> /data/library/e/n/g/derived/Hyperion.mobi/./lvl.1/Hyperion.mobi/Hyperion.txt
              │   └── lvl.1
              │       └── Hyperion.mobi
              │           └── Hyperion.txt

Faili puhastamine

Txt fail sisaldab päist ja jalust Gutenbergi infoga. Kasutame P_rer, et faili 'puhastada'.

        P_rer 's{.+?(Title:\sHyperion)}{$1}xms' Hyperion.txt
        P_rer 's{\*\*\*\sEND\sOF\sTHE\sPROJECT.+}{}xms' Hyperion.txt

Nende jaotiste eemaldamine tagab, et väljavõetud lingvistiline andmed on korrektsed. (Tokenite kordamine võib mõjutada sageduste jaotust.)

Tokeniseerimine

Tokeniseerimine

PMSE-s on olemas lihtne eelmääratletud tokeniseerija ja lause segmentaator inglise keele jaoks. Mõlemad kasutavad P_rer ja on makro kujul. Makro on siin shell wrapper - skript, mida kutsutakse konkreetsete argumentidega.

         MAK_tokenize Hyperion.txt eng
         MAK_1s1l -l eng -i Hyperion.txt

N-grammide Väljavõte

n-grammide diagramm

PMSE tuumfunktsionaalsus on n-grammide genereerimine ja erinevate statistiliste andmete loendamine. Järgnev kood võtab sisendina kõik txt failid derived kataloogis ja genereerib bigrammid ning loeb nende MI-skoori.

 P_gnp --in derived/ --cluster count --ifilter '+token=\A[\w\d]+\z' --out bigrams --measure 'mi=all' --report 3 

Märkus: Kasutasime vaikimisi n-grammide spetsifikatsiooni. Parameeter näeb välja selline: --ngrams 2 2 ' ' (n-grammid suurusega 2, aknast suurusega 2 ja eraldaja tokenite vahel on tühik).

Visualiseerimine ja Filtreerimine

Bigrammid on salvestatud sisemise PMSE objektina. P_dvf skript suudab selle struktuuri teisendada erinevatesse formaatidesse. Samuti suudab see filtreerida ja sorteerida tulemusi.

 P_dvf --in mi_1\|2 --filter '($value < 9) | ($key =~   m{\b(that|this|was|and|we|she|he|I|a|is|are|the|be)\b}xmsi)' --sort   '+val' 

Osta PMSE

e-post: sales@petamem.com
telefon: +49 911 894 6455
faks: +420 284 680 110

Litsentsi Hind

Uskuge või mitte, nüüd tuleb hea osa. PMSE on kommerts toode akadeemilisele sektorile ja PetaMem soovib pakkuda teile "kõik kaasas, ilma probleemideta, ilma mureta" paketti. Samuti tahame, et see tarkvarakomplekt oleks kõigile taskukohane. On kaks lihtsat litsentsi mudelit: Kasutaja kohta tööjaam kohta, mis on 49,- EUR kuus või osakonna laialt, mis on 499,- EUR kuus ilma piiranguteta kasutajate või tööjaamade arvul (kaasa arvatud üliõpilased). Kõikidele hindadele lisandub 19% käibemaks, mis ei kehti, kui olete väljaspool Saksamaad ja teil on käibemaksukohustuslase number.

Litsentsi Tingimused

Me lubame "ilma probleemideta, ilma mureta" litsentsimist. Litsentsi hinnaga saate mitte ainult õiguse tarkvara kasutamiseks, vaid ka tasuta tarkvaravärskendused ja tasuta toe. Kõik litsentsi üleminekud/alandused on intuitiivsed ja tee-mida-ma-tahan. Teil oli viis üksiклitsentsi ja soovite osakonna litsentsi või vastupidi? Pole üldse probleemi! Lihtsalt teavitage meid e-posti teel ja me kohandame litsentsi tingimusi samal tööpäeval.

Läheb veel paremaks: meie ettevõte on pühendatud avatud lähtekoodile ja kui tugineme kommertstarkvarale, on ainult vähesed asjad, mida tahame vältida rohkem kui tarnija lukustust. Teil võivad olla sarnased mured, kui tuginete komertstootele ja me mõistame seda täielikult. Kui otsustate lõpetada PMSE litsentsi tellimuse - noh - te hoiate PMSE ja teil on lubatud seda edasi kasutada. Kaotate tasuta värskendused ja tasuta toe, kuid hoiate tarkvara kasutamist. Tasuta.

Kui teil on litsentsimise kohta veel küsimusi või sooviksite toote tellida, palun ärge kõhelge võtta ühendust sales@petamem.com.

Kui teil on põhjalikumaid tehnilisi küsimusi, võtke palun ühendust support@petamem.com

sulge