Ez az útmutató azt mutatja be, hogyan kell dolgozni a PMSE-vel (és talán hogyan kezdjünk hozzá). Bemutatja azokat az alapvető funkciókat, amelyek a PMSE alapvető funkcionalitását képviselik.
Általános szoftvercsomag és köztes szoftver SNLP-hez. UNIX filozófia: kis egységek építőkészlete, amelyek új eszközlánchoz kombinálhatók. Nyelvfüggetlen. Perl-ben írva, automatizált tesztkészlet magas kódlefedettséggel, UTF-8 tudatos. CLI alapú, hatékony és párhuzamos feldolgozás. Alapos dokumentáció. Interaktív mód elérhető.
Először meg kell határoznunk a munkakörnyezetet. A PMSE úgy lett tervezve, hogy a dokumentumokat függetlenül dolgozza fel attól a nyelvtől, amelyen íródtak. Ezért átvettünk egy stratégiát a különböző nyelvű dokumentumokkal való foglalkozásra. Létrehoztunk egy könyvtárgyökeret, amely a következő helyen található:
/data/library/
Ha a könyvtár gyökere be van állítva, hozzáadhatók könyvtárak bizonyos nyelvekhez. A kód az iso-639-3 nyelvi specifikációból származik. Az angol könyvtár tehát:
/data/library/e/n/g/.
Ha a nulláról szeretné felépíteni a könyvtárat, szüksége lesz egy könyvtárra, amelyben a forrásfájlok elhelyezkednek. Ezt a könyvtárat original-nak nevezzük, ha megvannak a fájljai, fel kell dolgoznia azokat (átalakítani egyszerű szöveggé, tokenizálást végezni, n-gramok kinyerését és így tovább), hogy megkapja a kívánt információt. A feldolgozott fájlok a derived könyvtárban tárolódnak.
A P_daf szkript automatizált letöltési keretrendszer biztosítására készült. A P_daf egy INI fájlt olvas be, amelyben meg van adva a cél URL-je. Íme egy példa egy nagyon egyszerű INI fájlra, amelyet demo.ini:-nek hívnak
[global]
lastfetch = 2013-01-30 00:00:00
interval = 6 months
name = demo
[Hyperion]
threads = 1;
BASE = http://www.gutenberg.org
url = %BASE%/ebooks/5436
match = a\shref="(?http://www.gutenberg.org/ebooks/(?\d+).(?kindle).noimages)"\stype
get = $file store = "$ENV{PMCORP_ROOT}/e/n/g/original/Hyperion.mobi"
A fájlban található szakaszok és argumentumok jelentése a PMSE kézikönyvében található. A demo.ini fájlt a $PMSE_BIN/cfg/daf.d/ könyvtárban kell tárolni. Ha elhelyezte ott az INI-t, most hívhatja a szkriptet:
P_daf --fetch demo
A letöltés után a 5436.epub fájlnak a /data/library/e/n/g/original/ könyvtárban kell lennie.
Először menjen a könyvtárba, majd hívja a P_dmf szkriptet. A MOBI formátum txt-re való konvertálásához telepítenie kell a calibre e-könyv kezelőt, amelyet a P_dmf az integrált eszközök egyikeként használ. Használhatja a PM_CONVERTOR_WARNINGS=1 jelzőt a rendszerén hiányzó konverterek megjelenítéséhez.
cd /data/library/e/n/g/
PM_CONVERTOR_WARNINGS=1 P_dmf --in /data/library/e/n/g/original/
Ha minden jól ment, látnia kell a /data/library/e/n/g/derived/ könyvtárat. Tartalmaznia kell egy Hyperion.txt nevű szöveges fájlt. Nézzük meg a szerkezetét:
tree derived/
derived/
├── Hyperion.mobi
│ ├── lvl.last
│ └── Hyperion.mobi
│ │ └── Hyperion.txt -> /data/library/e/n/g/derived/Hyperion.mobi/./lvl.1/Hyperion.mobi/Hyperion.txt
│ └── lvl.1
│ └── Hyperion.mobi
│ └── Hyperion.txt
A txt fájl fejlécet és láblécet tartalmaz Gutenberg információkkal. A P_rer-t fogjuk használni a fájl "megtisztítására".
P_rer 's{.+?(Title:\sHyperion)}{$1}xms' Hyperion.txt
P_rer 's{\*\*\*\sEND\sOF\sTHE\sPROJECT.+}{}xms' Hyperion.txt
Ezeknek a szakaszoknak az eltávolítása biztosítja, hogy a kivont nyelvészeti adatok helyesek legyenek. (A tokenek ismétlődése befolyásolhatja a gyakoriságok eloszlását.)
A PMSE-ben létezik egy egyszerűen előre meghatározott tokenizáló és mondat szegmentáló az angolhoz. Mindkettő a P_rer-t használja és makró formája van. A makró itt egy shell wrapper - egy szkript, amelyet meghatározott argumentumokkal hívnak meg.
MAK_tokenize Hyperion.txt eng
MAK_1s1l -l eng -i Hyperion.txt
A PMSE alapvető funkciója az n-gramok generálása és különböző statisztikai információk számítása. A következő kód bemenetként az összes txt fájlt veszi a derived könyvtárban, és bigramokat generál, valamint kiszámítja azok MI-pontszámát.
P_gnp --in derived/ --cluster count --ifilter '+token=\A[\w\d]+\z' --out bigrams --measure 'mi=all' --report 3
Megjegyzés: Az n-gramok alapértelmezett specifikációját használtuk. A paraméter formája: --ngrams 2 2 ' ' (2-es méretű n-gramok, 2-es méretű ablakból, és a tokenek közötti elválasztó egy szóköz).
A bigramok belső PMSE objektumként vannak tárolva. A P_dvf szkript képes ezt a struktúrát különböző formátumokra konvertálni. Továbbá képes szűrni és rendezni az eredményeket.
P_dvf --in mi_1\|2 --filter '($value < 9) | ($key =~ m{\b(that|this|was|and|we|she|he|I|a|is|are|the|be)\b}xmsi)' --sort '+val'
email: sales@petamem.com
telefon: +49 911 894 6455
fax: +420 284 680 110
Akár hiszi, akár nem, most jön a jó rész. A PMSE egy kereskedelmi termék az akadémiai szektor számára, és a PetaMem egy "mindent magában foglaló, problémamentes, gond nélküli" csomagot kíván felajánlani. Azt is szeretnénk, hogy ez a szoftvercsomag mindenki számára elérhető legyen. Két egyszerű licencmodell létezik: Felhasználónként munkaállomásonként, amely 49,- EUR havonta vagy részlegszinten, amely 499,- EUR havonta, felhasználók vagy munkaállomások számának korlátozása nélkül (beleértve a hallgatókat is). Minden ár + 19% ÁFA, amely nem alkalmazandó, ha Németországon kívül van és ÁFA-azonosítóval rendelkezik.
"Problémamentes, gond nélküli" licencelést ígérünk. A licencdíjjal nemcsak a szoftver használatának jogát szerzi meg, hanem ingyenes szoftverfrissítéseket és ingyenes támogatást is. Minden licenc frissítés/visszaminősítés intuitív és "tedd-amit-gondolok". Öt egyedi licence volt és szeretne egy részleglicencet vagy fordítva? Egyáltalán nem probléma! Egyszerűen értesítsen minket e-mailben, és ugyanazon a munkanapon módosítjuk a licencfeltételeket.
Még jobb: cégünk elkötelezett a nyílt forráskód mellett, és amikor kereskedelmi szoftvert használunk, kevés olyan dolog van, amit jobban szeretnénk elkerülni, mint a beszállítói függőséget. Hasonló aggályai lehetnek, amikor kereskedelmi termékre támaszkodik, és ezt teljes mértékben megértjük. Ha úgy dönt, hogy befejezi a PMSE licencszerződését - nos - megtartja a PMSE-t és használhatja tovább. Elveszíti az ingyenes frissítéseket és az ingyenes támogatást, de továbbra is használhatja a szoftvert. Ingyen.
Ha további kérdései vannak a licenceléssel kapcsolatban vagy szeretné megrendelni a terméket, ne habozzon kapcsolatba lépni a sales@petamem.com címen.
Ha további részletes technikai kérdései vannak, kérjük, lépjen kapcsolatba a support@petamem.com címen
bezár