Aloitus

Tämä esittely havainnollistaa, kuinka PMSE:n kanssa työskennellään (ja ehkä kuinka aloittaa). Se esittelee sinulle perustoiminnot, jotka edustavat PMSE:n ydintoiminnallisuutta.

Datakirjasto

Yleinen ohjelmistopaketti ja väliohjelmisto SNLP:lle. UNIX-filosofia: rakennuspakki pienistä yksiköistä, jotka voidaan yhdistää uudeksi työkaluketjuksi. Kieliriippumaton. Kirjoitettu Perlillä, automaattinen testipaketti korkealla koodikattavuudella, UTF-8-tietoinen. Komentorivi-pohjainen, tehokas ja rinnakkainen käsittely. Perusteellinen dokumentaatio. Interaktiivinen tila saatavilla.

Meidän on ensin määriteltävä työympäristö. PMSE on suunniteltu käsittelemään asiakirjoja riippumatta siitä, millä kielellä ne on kirjoitettu. Siksi omaksuimme strategian, kuinka käsitellä asiakirjoja eri kielillä. Olemme luoneet kirjaston juurikansion, joka sijaitsee:

/data/library/

Kun kirjaston juuri on asetettu, voidaan lisätä hakemistoja tietyille kielille. Koodi on johdettu iso-639-3 kielimäärittelystä. Englannin hakemisto on siis:

 /data/library/e/n/g/. 

Jos haluat rakentaa kirjaston tyhjästä, tarvitset hakemiston, johon lähdetiedostot sijoitetaan. Kutsumme tällaista hakemistoa originaliksi. Kun sinulla on tiedostot, sinun on käsiteltävä ne (muunnettava tavalliseksi tekstiksi, tehtävä tokenisaatio, n-grammien erottaminen ja niin edelleen) halutun tiedon saamiseksi. Käsitellyt tiedostot tallennetaan derived-hakemistoon.

Hae tiedosto

Get File Diagram

P_daf-skripti on suunniteltu tarjoamaan kehys automaattista latausta varten. P_daf lukee INI-tiedostoa, jossa on määritelty kohteen URL-osoite. Tässä on esimerkki erittäin yksinkertaisesta INI-tiedostosta nimeltä demo.ini:

     [global]
                  lastfetch = 2013-01-30 00:00:00
                  interval  = 6 months
                  name      = demo

                  [Hyperion]
                  threads = 1;
                  BASE  = http://www.gutenberg.org
                  url   = %BASE%/ebooks/5436
                  match = a\shref="(?http://www.gutenberg.org/ebooks/(?\d+).(?kindle).noimages)"\stype
                  get   = $file        store = "$ENV{PMCORP_ROOT}/e/n/g/original/Hyperion.mobi"

Osioiden ja argumenttien merkitys tiedostossa on kuvattu PMSE käsikirjassa. demo.ini-tiedosto on tallennettava $PMSE_BIN/cfg/daf.d/-hakemistoon. Jos olet sijoittanut INI:n sinne, voit nyt kutsua skriptiä:

 P_daf --fetch demo 

Latauksen jälkeen tiedoston 5436.epub pitäisi olla /data/library/e/n/g/original/-hakemistossa.

Muunna tiedosto

Mene ensin kirjastoon ja kutsu sitten P_dmf-skriptiä. MOBI-formaatin muuntamiseksi txt:ksi, sinun tulisi asentaa calibre e-kirjojen hallintaohjelma, jota P_dmf käyttää yhtenä integroituna työkaluna. Voit käyttää PM_CONVERTOR_WARNINGS=1-lippua näyttääksesi järjestelmästäsi puuttuvat muuntimet.

        cd /data/library/e/n/g/
        PM_CONVERTOR_WARNINGS=1 P_dmf --in /data/library/e/n/g/original/ 

Jos kaikki meni hyvin, sinun pitäisi nähdä /data/library/e/n/g/derived/-hakemisto. Sen pitäisi sisältää tekstitiedosto nimeltä Hyperion.txt. Näytetään sen rakenne:

 tree derived/
             derived/
              ├── Hyperion.mobi
              │   ├── lvl.last

              │   └── Hyperion.mobi
              │   │       └── Hyperion.txt -> /data/library/e/n/g/derived/Hyperion.mobi/./lvl.1/Hyperion.mobi/Hyperion.txt
              │   └── lvl.1
              │       └── Hyperion.mobi
              │           └── Hyperion.txt

Puhdista tiedosto

Txt-tiedosto sisältää otsikon ja alatunnisteen Gutenberg-tiedoilla. Käytämme P_rer:iä tiedoston 'puhdistamiseen'.

        P_rer 's{.+?(Title:\sHyperion)}{$1}xms' Hyperion.txt
        P_rer 's{\*\*\*\sEND\sOF\sTHE\sPROJECT.+}{}xms' Hyperion.txt

Näiden osien poistaminen varmistaa, että poimittu kielellinen data on oikea. (Merkkien toisto saattaa vaikuttaa frekvenssien jakaumaan.)

Tokenisaatio

Tokenization

PMSE:ssä on yksinkertainen esimääritelty tokenisaattori ja lauseen segmentoija englanniksi. Molemmat käyttävät P_rer:iä ja ovat makron muodossa. Makro on tässä komentotulkin kääre - skripti, jota kutsutaan tietyillä argumenteilla.

         MAK_tokenize Hyperion.txt eng
         MAK_1s1l -l eng -i Hyperion.txt

N-grammien erottaminen

n-grams diagram

PMSE:n ydintoiminto on n-grammien generointi ja erilaisten tilastotietojen laskeminen. Seuraava koodi ottaa syötteeksi kaikki txt-tiedostot derived-hakemistosta ja generoi bigrammit ja laskee niiden MI-pistemäärän.

 P_gnp --in derived/ --cluster count --ifilter '+token=\A[\w\d]+\z' --out bigrams --measure 'mi=all' --report 3 

Huomautus: Käytimme n-grammien oletusmääritystä. Parametri näyttää tältä: --ngrams 2 2 ' ' (koon 2 n-grammit, koon 2 ikkunasta ja merkkien välinen erotin on välilyönti).

Visualisointi ja suodatus

Bigrammit tallennetaan sisäisenä PMSE-objektina. P_dvf-skripti pystyy muuntamaan tämän rakenteen erilaisiksi formaateiksi. Se pystyy myös suodattamaan ja järjestämään tulokset.

 P_dvf --in mi_1\|2 --filter '($value < 9) | ($key =~   m{\b(that|this|was|and|we|she|he|I|a|is|are|the|be)\b}xmsi)' --sort   '+val' 

Osta PMSE

sähköposti: sales@petamem.com
puhelin: +49 911 894 6455
faksi: +420 284 680 110

Lisenssikustannukset

Usko tai älä, nyt tulee hyvä osa. PMSE on kaupallinen tuote akateemiselle sektorille ja PetaMem haluaa tarjota sinulle "kaikki sisältyy hintaan, ei vaivaa, ei huolia" -paketin. Haluamme myös, että tämä ohjelmistopaketti on kohtuuhintainen kaikille. Tarjolla on kaksi yksinkertaista lisensointimallia: Per käyttäjä per työasema, joka on 49,- EUR kuukaudessa tai osastokohtainen, joka on 499,- EUR kuukaudessa ilman rajoituksia käyttäjien tai työasemien määrässä (mukaan lukien opiskelijat). Kaikki hinnat ovat + 19% ALV, jota ei sovelleta, jos olet Saksan ulkopuolella ja sinulla on ALV-tunnus.

Lisenssiehdot

Lupaamme "ei vaivaa, ei huolia" -lisenssin. Lisenssikustannusten myötä saat paitsi oikeuden käyttää ohjelmistoa, myös ilmaiset ohjelmistopäivitykset ja ilmaisen tuen. Kaikki lisenssipäivitykset/-alennukset ovat intuitiivisia ja tekevät mitä tarkoitan. Sinulla oli viisi yksittäistä lisenssiä ja haluaisit osastolisenssin tai päinvastoin? Ei ongelmaa! Ilmoita meille yksinkertaisesti sähköpostilla, niin muutamme lisensointiehdot samana työpäivänä.

Vielä parempaa: yrityksemme on sitoutunut avoimen lähdekoodin periaatteisiin ja kun luotamme kaupalliseen ohjelmistoon, on vain vähän asioita, joita haluamme välttää enemmän kuin toimittajasidonnaisuutta. Sinulla saattaa olla samanlaisia huolenaiheita, kun luotat kaupalliseen tuotteeseen, ja ymmärrämme sen täysin. Jos päätät lopettaa PMSE:n lisenssitilauksen - no - säilytät PMSE:n ja sinulla on lupa jatkaa sen käyttöä. Menetät ilmaiset päivitykset ja ilmaisen tuen, mutta saat jatkaa ohjelmiston käyttöä. Ilmaiseksi.

Jos sinulla on kysyttävää lisensioinnista tai haluaisit tilata tuotteen, älä epäröi ottaa yhteyttä sales@petamem.com.

Jos sinulla on tarkempia teknisiä kysymyksiä, ota yhteyttä support@petamem.com

sulje