Kezdés

Ez az útmutató azt mutatja be, hogyan kell dolgozni a PMSE-vel (és talán hogyan kezdjünk hozzá). Bemutatja azokat az alapvető funkciókat, amelyek a PMSE alapvető funkcionalitását képviselik.

Adatkönyvtár

Általános szoftvercsomag és köztes szoftver SNLP-hez. UNIX filozófia: kis egységek építőkészlete, amelyek új eszközlánchoz kombinálhatók. Nyelvfüggetlen. Perl-ben írva, automatizált tesztkészlet magas kódlefedettséggel, UTF-8 tudatos. CLI alapú, hatékony és párhuzamos feldolgozás. Alapos dokumentáció. Interaktív mód elérhető.

Először meg kell határoznunk a munkakörnyezetet. A PMSE úgy lett tervezve, hogy a dokumentumokat függetlenül dolgozza fel attól a nyelvtől, amelyen íródtak. Ezért átvettünk egy stratégiát a különböző nyelvű dokumentumokkal való foglalkozásra. Létrehoztunk egy könyvtárgyökeret, amely a következő helyen található:

/data/library/

Ha a könyvtár gyökere be van állítva, hozzáadhatók könyvtárak bizonyos nyelvekhez. A kód az iso-639-3 nyelvi specifikációból származik. Az angol könyvtár tehát:

 /data/library/e/n/g/. 

Ha a nulláról szeretné felépíteni a könyvtárat, szüksége lesz egy könyvtárra, amelyben a forrásfájlok elhelyezkednek. Ezt a könyvtárat original-nak nevezzük, ha megvannak a fájljai, fel kell dolgoznia azokat (átalakítani egyszerű szöveggé, tokenizálást végezni, n-gramok kinyerését és így tovább), hogy megkapja a kívánt információt. A feldolgozott fájlok a derived könyvtárban tárolódnak.

Fájl beszerzése

Fájl Beszerzési Diagram

A P_daf szkript automatizált letöltési keretrendszer biztosítására készült. A P_daf egy INI fájlt olvas be, amelyben meg van adva a cél URL-je. Íme egy példa egy nagyon egyszerű INI fájlra, amelyet demo.ini:-nek hívnak

     [global]
                  lastfetch = 2013-01-30 00:00:00
                  interval  = 6 months
                  name      = demo

                  [Hyperion]
                  threads = 1;
                  BASE  = http://www.gutenberg.org
                  url   = %BASE%/ebooks/5436
                  match = a\shref="(?http://www.gutenberg.org/ebooks/(?\d+).(?kindle).noimages)"\stype
                  get   = $file        store = "$ENV{PMCORP_ROOT}/e/n/g/original/Hyperion.mobi"

A fájlban található szakaszok és argumentumok jelentése a PMSE kézikönyvében található. A demo.ini fájlt a $PMSE_BIN/cfg/daf.d/ könyvtárban kell tárolni. Ha elhelyezte ott az INI-t, most hívhatja a szkriptet:

 P_daf --fetch demo 

A letöltés után a 5436.epub fájlnak a /data/library/e/n/g/original/ könyvtárban kell lennie.

Fájl konvertálása

Először menjen a könyvtárba, majd hívja a P_dmf szkriptet. A MOBI formátum txt-re való konvertálásához telepítenie kell a calibre e-könyv kezelőt, amelyet a P_dmf az integrált eszközök egyikeként használ. Használhatja a PM_CONVERTOR_WARNINGS=1 jelzőt a rendszerén hiányzó konverterek megjelenítéséhez.

        cd /data/library/e/n/g/
        PM_CONVERTOR_WARNINGS=1 P_dmf --in /data/library/e/n/g/original/ 

Ha minden jól ment, látnia kell a /data/library/e/n/g/derived/ könyvtárat. Tartalmaznia kell egy Hyperion.txt nevű szöveges fájlt. Nézzük meg a szerkezetét:

 tree derived/
             derived/
              ├── Hyperion.mobi
              │   ├── lvl.last

              │   └── Hyperion.mobi
              │   │       └── Hyperion.txt -> /data/library/e/n/g/derived/Hyperion.mobi/./lvl.1/Hyperion.mobi/Hyperion.txt
              │   └── lvl.1
              │       └── Hyperion.mobi
              │           └── Hyperion.txt

Fájl tisztítása

A txt fájl fejlécet és láblécet tartalmaz Gutenberg információkkal. A P_rer-t fogjuk használni a fájl "megtisztítására".

        P_rer 's{.+?(Title:\sHyperion)}{$1}xms' Hyperion.txt
        P_rer 's{\*\*\*\sEND\sOF\sTHE\sPROJECT.+}{}xms' Hyperion.txt

Ezeknek a szakaszoknak az eltávolítása biztosítja, hogy a kivont nyelvészeti adatok helyesek legyenek. (A tokenek ismétlődése befolyásolhatja a gyakoriságok eloszlását.)

Tokenizálás

Tokenizálás

A PMSE-ben létezik egy egyszerűen előre meghatározott tokenizáló és mondat szegmentáló az angolhoz. Mindkettő a P_rer-t használja és makró formája van. A makró itt egy shell wrapper - egy szkript, amelyet meghatározott argumentumokkal hívnak meg.

         MAK_tokenize Hyperion.txt eng
         MAK_1s1l -l eng -i Hyperion.txt

N-gramok Kinyerése

n-gramok diagram

A PMSE alapvető funkciója az n-gramok generálása és különböző statisztikai információk számítása. A következő kód bemenetként az összes txt fájlt veszi a derived könyvtárban, és bigramokat generál, valamint kiszámítja azok MI-pontszámát.

 P_gnp --in derived/ --cluster count --ifilter '+token=\A[\w\d]+\z' --out bigrams --measure 'mi=all' --report 3 

Megjegyzés: Az n-gramok alapértelmezett specifikációját használtuk. A paraméter formája: --ngrams 2 2 ' ' (2-es méretű n-gramok, 2-es méretű ablakból, és a tokenek közötti elválasztó egy szóköz).

Vizualizáció és Szűrés

A bigramok belső PMSE objektumként vannak tárolva. A P_dvf szkript képes ezt a struktúrát különböző formátumokra konvertálni. Továbbá képes szűrni és rendezni az eredményeket.

 P_dvf --in mi_1\|2 --filter '($value < 9) | ($key =~   m{\b(that|this|was|and|we|she|he|I|a|is|are|the|be)\b}xmsi)' --sort   '+val' 

PMSE Vásárlás

email: sales@petamem.com
telefon: +49 911 894 6455
fax: +420 284 680 110

Licencdíj

Akár hiszi, akár nem, most jön a jó rész. A PMSE egy kereskedelmi termék az akadémiai szektor számára, és a PetaMem egy "mindent magában foglaló, problémamentes, gond nélküli" csomagot kíván felajánlani. Azt is szeretnénk, hogy ez a szoftvercsomag mindenki számára elérhető legyen. Két egyszerű licencmodell létezik: Felhasználónként munkaállomásonként, amely 49,- EUR havonta vagy részlegszinten, amely 499,- EUR havonta, felhasználók vagy munkaállomások számának korlátozása nélkül (beleértve a hallgatókat is). Minden ár + 19% ÁFA, amely nem alkalmazandó, ha Németországon kívül van és ÁFA-azonosítóval rendelkezik.

Licencfeltételek

"Problémamentes, gond nélküli" licencelést ígérünk. A licencdíjjal nemcsak a szoftver használatának jogát szerzi meg, hanem ingyenes szoftverfrissítéseket és ingyenes támogatást is. Minden licenc frissítés/visszaminősítés intuitív és "tedd-amit-gondolok". Öt egyedi licence volt és szeretne egy részleglicencet vagy fordítva? Egyáltalán nem probléma! Egyszerűen értesítsen minket e-mailben, és ugyanazon a munkanapon módosítjuk a licencfeltételeket.

Még jobb: cégünk elkötelezett a nyílt forráskód mellett, és amikor kereskedelmi szoftvert használunk, kevés olyan dolog van, amit jobban szeretnénk elkerülni, mint a beszállítói függőséget. Hasonló aggályai lehetnek, amikor kereskedelmi termékre támaszkodik, és ezt teljes mértékben megértjük. Ha úgy dönt, hogy befejezi a PMSE licencszerződését - nos - megtartja a PMSE-t és használhatja tovább. Elveszíti az ingyenes frissítéseket és az ingyenes támogatást, de továbbra is használhatja a szoftvert. Ingyen.

Ha további kérdései vannak a licenceléssel kapcsolatban vagy szeretné megrendelni a terméket, ne habozzon kapcsolatba lépni a sales@petamem.com címen.

Ha további részletes technikai kérdései vannak, kérjük, lépjen kapcsolatba a support@petamem.com címen

bezár