Šai izpētei vajadzētu ilustrēt, kā strādāt ar PMSE (un varbūt kā sākt). Tā iepazīstinās ar pamatfunkcijām, kas veido PMSE pamata funkcionalitāti.
Universāls programmatūras komplekts un starpprogrammatūra statistiskajai dabiskās valodas apstrādei. UNIX filozofija: mazas vienības, kas var tikt apvienotas jaunā rīku ķēdē. Neatkarīga no valodas. Rakstīta Perl, automatizēts testu komplekts ar augstu koda pārklājumu, UTF-8 atbalsts. Balstīta uz komandrindas saskarni, efektīva un paralēla apstrāde. Rūpīga dokumentācija. Pieejams interaktīvs režīms.
Vispirms ir jādefinē darba vide. PMSE ir izstrādāta, lai apstrādātu dokumentus neatkarīgi no valodas, kādā tie ir rakstīti. Tāpēc mēs pieņēmām stratēģiju, kā rīkoties ar dokumentiem dažādās valodās. Mēs izveidojām bibliotēkas sakni, kas atrodas:
/data/library/
Kad bibliotēkas sakne ir iestatīta, var pievienot direktorijas konkrētām valodām. Kods ir atvasināts no iso-639-3 valodu specifikācijas. Direktorija angļu valodai tādējādi būs:
/data/library/e/n/g/.
Ja vēlaties izveidot savu bibliotēku no nulles, jums būs nepieciešama direktorija, kurā tiks novietoti avota faili. Mēs šādu direktoriju saucam par original, kad jums ir faili, jums ir jāapstrādā tie (konvertēt vienkāršā tekstā, veikt tokenizāciju, n-grammu ekstrakciju un tā tālāk), lai iegūtu vēlamo informāciju. Apstrādātie faili tiks saglabāti derived direktorijā.
P_daf skripts tika izstrādāts, lai nodrošinātu ietvaru automatizētai lejupielādei. P_daf nolasa INI failu, kurā ir norādīts mērķa URL. Šeit ir ļoti vienkārša INI faila piemērs, ko sauc par demo.ini:
[global]
lastfetch = 2013-01-30 00:00:00
interval = 6 months
name = demo
[Hyperion]
threads = 1;
BASE = http://www.gutenberg.org
url = %BASE%/ebooks/5436
match = a\shref="(?http://www.gutenberg.org/ebooks/(?\d+).(?kindle).noimages)"\stype
get = $file store = "$ENV{PMCORP_ROOT}/e/n/g/original/Hyperion.mobi"
Sadaļu un argumentu nozīme failā ir aprakstīta PMSE rokasgrāmatā. demo.ini fails ir jāsaglabā $PMSE_BIN/cfg/daf.d/ direktorijā. Ja esat ievietojis INI tur, jūs varat tagad izsaukt skriptu:
P_daf --fetch demo
Pēc lejupielādes failam 5436.epub vajadzētu būt novietotam /data/library/e/n/g/original/ direktorijā.
Vispirms dodieties uz bibliotēku un pēc tam izsauciet P_dmf skriptu. Lai konvertētu MOBI formātu uz txt, jums vajadzētu instalēt calibre e-grāmatu pārvaldnieku, ko P_dmf izmanto kā vienu no integrētajiem rīkiem. Jūs varat izmantot PM_CONVERTOR_WARNINGS=1 karodziņu, lai parādītu konvertorus, kas trūkst jūsu sistēmā.
cd /data/library/e/n/g/
PM_CONVERTOR_WARNINGS=1 P_dmf --in /data/library/e/n/g/original/
Ja viss noritēja labi, jums vajadzētu redzēt /data/library/e/n/g/derived/ direktoriju. Tajā vajadzētu būt teksta failam ar nosaukumu Hyperion.txt. Apskatīsim tā struktūru:
tree derived/
derived/
├── Hyperion.mobi
│ ├── lvl.last
│ └── Hyperion.mobi
│ │ └── Hyperion.txt -> /data/library/e/n/g/derived/Hyperion.mobi/./lvl.1/Hyperion.mobi/Hyperion.txt
│ └── lvl.1
│ └── Hyperion.mobi
│ └── Hyperion.txt
Txt fails satur galveni un kājeni ar Gutenberg informāciju. Mēs izmantosim P_rer, lai 'attīrītu' failu.
P_rer 's{.+?(Title:\sHyperion)}{$1}xms' Hyperion.txt
P_rer 's{\*\*\*\sEND\sOF\sTHE\sPROJECT.+}{}xms' Hyperion.txt
Šo sadaļu noņemšana nodrošinās, ka iegūtie lingvistiskie dati būs pareizi. (Leksēmu atkārtošanās var ietekmēt biežumu sadalījumu.)
PMSE pastāv vienkārši iepriekš definēts tokenizētājs un teikumu segmentators angļu valodai. Abi izmanto P_rer un ir makro formā. Makro šeit ir čaulas apvalks - skripts, ko izsauc ar specifiskiem argumentiem.
MAK_tokenize Hyperion.txt eng
MAK_1s1l -l eng -i Hyperion.txt
PMSE pamata funkcionalitāte ir n-grammu ģenerēšana un dažādas statistiskās informācijas skaitīšana. Šis kods ņems kā ievadi visus txt failus derived direktorijā un ģenerēs bigrammas un saskaitīs to MI punktu skaitu.
P_gnp --in derived/ --cluster count --ifilter '+token=\A[\w\d]+\z' --out bigrams --measure 'mi=all' --report 3
Piezīme: Mēs izmantojām noklusējuma n-grammu specifikāciju. Parametrs izskatās šādi: --ngrams 2 2 ' ' (n-grammas izmēra 2, no loga izmēra 2 un atdalītājs starp leksēmām ir atstarpe).
Bigrammas tiek saglabātas kā iekšējais PMSE objekts. P_dvf skripts spēj konvertēt šo struktūru dažādos formātos. Arī tas spēj filtrēt un šķirot rezultātus.
P_dvf --in mi_1\|2 --filter '($value < 9) | ($key =~ m{\b(that|this|was|and|we|she|he|I|a|is|are|the|be)\b}xmsi)' --sort '+val'
e-pasts: sales@petamem.com
tālrunis: +49 911 894 6455
fakss: +420 284 680 110
Ticiet vai nē, tagad nāk labākā daļa. PMSE ir komerciāls produkts akadēmiskajam sektoram, un PetaMem vēlas piedāvāt jums "visu iekļaujošu, bez raizēm, bez problēmām" paketi. Mēs arī vēlamies, lai šis programmatūras komplekts būtu pieejams ikvienam. Ir divi vienkārši licencēšanas modeļi: vienam lietotājam vienā darbstacijā, kas ir 49,- EUR mēnesī, vai visai nodaļai, kas ir 499,- EUR mēnesī bez ierobežojumiem lietotāju vai darbstaciju skaitam (ieskaitot studentus). Visas cenas ir + 19% PVN, kas neattiecas, ja atrodaties ārpus Vācijas un jums ir PVN identifikācijas numurs.
Mēs solām "bez raizēm, bez problēmām" licencēšanu. Ar licences izmaksām jūs iegūstat ne tikai tiesības izmantot programmatūru, bet arī bezmaksas programmatūras jauninājumus un bezmaksas atbalstu. Jebkādi licences uzlabojumi/pazeminājumi ir intuitīvi un dara-to-ko-es-domāju. Jums bija piecas individuālās licences un jūs vēlētos nodaļas licenci vai otrādi? Nav nekādu problēmu! Vienkārši paziņojiet mums pa e-pastu, un mēs pielāgosim licencēšanas nosacījumus tajā pašā darba dienā.
Tas kļūst vēl labāk: mūsu uzņēmums ir apņēmies atbalstīt atvērtā pirmkoda programmatūru, un, paļaujoties uz komerciālu programmatūru, ir tikai dažas lietas, ko mēs vēlamies izvairīties vairāk nekā piegādātāja bloķēšanu. Jums var būt līdzīgas bažas, paļaujoties uz komerciālu produktu, un mēs to pilnībā saprotam. Ja jūs noliemsit izbeigt PMSE licencēšanas abonementu - nu - jūs paturēsiet PMSE un drīkstēsiet turpināt to izmantot. Jūs zaudēsiet bezmaksas jauninājumus un bezmaksas atbalstu, bet jūs turpināsiet izmantot programmatūru. Bez maksas.
Ja jums ir kādi papildu jautājumi par licencēšanu vai vēlētos pasūtīt produktu, lūdzu, nevilcinieties sazināties ar sales@petamem.com.
Ja jums ir papildu detalizēti tehniskie jautājumi, lūdzu, sazinieties ar support@petamem.com
aizvērt