Гэты даведнік павінен праілюстраваць, як працаваць з PMSE (і, магчыма, як пачаць). Ён пазнаёміць вас з асноўнымі функцыямі, якія ўяўляюць асноўную функцыянальнасць PMSE.
Універсальны пакет праграмнага забеспячэння і праміжнае ПЗ для SNLP. Філасофія UNIX: будаўнічы набор з невялікіх адзінак, якія могуць быць аб'яднаны ў новы набор інструментаў. Не залежыць ад мовы. Напісана на Perl, аўтаматызаваны набор тэстаў з высокім ахопам кода, падтрымлівае UTF-8. Заснавана на CLI, эфектыўная і паралельная апрацоўка. Дэталёвая дакументацыя. Даступны інтэрактыўны рэжым.
Спачатку мы павінны вызначыць працоўнае асяроддзе. PMSE распрацавана для апрацоўкі дакументаў незалежна ад мовы, на якой яны напісаны. Таму мы прынялі стратэгію працы з дакументамі на розных мовах. Мы ўвялі каранёвы каталог для бібліятэкі, які знаходзіцца ў:
/data/library/
Калі корань бібліятэкі ўстаноўлены, могуць быць дададзены каталогі для канкрэтных моў. Код вызначаецца са спецыфікацыі мовы iso-639-3. Такім чынам, каталог для англійскай мовы будзе:
/data/library/e/n/g/.
Калі вы хочаце стварыць сваю бібліятэку з нуля, вам спатрэбіцца каталог, дзе будуць размешчаны зыходныя файлы. Такі каталог мы называем original. Калі ў вас ёсць вашы файлы, вы павінны апрацаваць іх (пераўтварыць у звычайны тэкст, выканаць таканізацыю, выняць n-грамы і г.д.), каб атрымаць неабходную інфармацыю. Апрацаваныя файлы будуць захаваны ў каталогу derived.
Скрыпт P_daf быў распрацаваны для забеспячэння асновы для аўтаматызаванай загрузкі. P_daf чытае INI-файл, у якім вызначаны URL-адрас мэты. Вось прыклад вельмі простага INI-файла з назвай demo.ini:
[global]
lastfetch = 2013-01-30 00:00:00
interval = 6 months
name = demo
[Hyperion]
threads = 1;
BASE = http://www.gutenberg.org
url = %BASE%/ebooks/5436
match = a\shref="(?<file>http://www.gutenberg.org/ebooks/(?<id>\d+).(?<type>kindle).noimages)"\stype
get = $file store = "$ENV{PMCORP_ROOT}/e/n/g/original/Hyperion.mobi"
Значэнне секцый і аргументаў у файле апісана ў даведніку PMSE. Файл demo.ini павінен быць захаваны ў каталогу $PMSE_BIN/cfg/daf.d/. Калі вы размясцілі INI там, вы можаце цяпер выклікаць скрыпт:
P_daf --fetch demo
Пасля загрузкі файл 5436.epub павінен быць размешчаны ў каталогу /data/library/e/n/g/original/.
Спачатку перайдзіце ў бібліятэку, а потым выклічце скрыпт P_dmf. Для пераўтварэння фармату MOBI у txt вам трэба ўсталяваць менеджэр электронных кніг calibre, які выкарыстоўваецца P_dmf як адзін з інтэграваных інструментаў. Вы можаце выкарыстоўваць флаг PM_CONVERTOR_WARNINGS=1, каб паказаць канвертары, якіх не хапае ў вашай сістэме.
cd /data/library/e/n/g/
PM_CONVERTOR_WARNINGS=1 P_dmf --in /data/library/e/n/g/original/
Калі ўсё прайшло добра, вы павінны ўбачыць каталог /data/library/e/n/g/derived/. Ён павінен змяшчаць тэкставы файл з назвай Hyperion.txt. Давайце паглядзім на яго структуру:
tree derived/
derived/
├── Hyperion.mobi
│ ├── lvl.last
│ └── Hyperion.mobi
│ │ └── Hyperion.txt -> /data/library/e/n/g/derived/Hyperion.mobi/./lvl.1/Hyperion.mobi/Hyperion.txt
│ └── lvl.1
│ └── Hyperion.mobi
│ └── Hyperion.txt
Файл txt змяшчае загаловак і падвал з інфармацыяй з Gutenberg. Мы выкарыстаем P_rer, каб 'ачысціць' файл.
P_rer 's{.+?(Title:\sHyperion)}{$1}xms' Hyperion.txt
P_rer 's{\*\*\*\sEND\sOF\sTHE\sPROJECT.+}{}xms' Hyperion.txt
Выдаленне гэтых секцый забяспечыць правільнасць выняты лінгвістычных даных. (Паўтарэнне токенаў можа паўплываць на размеркаванне частот.)
У PMSE ёсць просты загадзя вызначаны таканізатар і сегментатар сказаў для англійскай мовы. Абодва выкарыстоўваюць P_rer і маюць форму макраса. Макрас тут - гэта абалонка shell - скрыпт, які выклікаецца з канкрэтнымі аргументамі.
MAK_tokenize Hyperion.txt eng
MAK_1s1l -l eng -i Hyperion.txt
Асноўная функцыянальнасць PMSE - генерацыя n-грамаў і падлік розных статыстычных дадзеных. Наступны код возьме ў якасці ўваходных дадзеных усе txt-файлы ў каталогу derived і будзе генераваць біграмы і лічыць іх MI-бал.
P_gnp --in derived/ --cluster count --ifilter '+token=\A[\w\d]+\z' --out bigrams --measure 'mi=all' --report 3
Заўвага: Мы выкарысталі стандартную спецыфікацыю n-грамаў. Параметр мае форму: --ngrams 2 2 ' ' (n-грамы памеру 2, з акна памеру 2, і раздзяляльнік паміж токенамі - прабел).
Біграмы захаваны як унутраны аб'ект PMSE. Скрыпт P_dvf здольны пераўтварыць гэтую структуру ў розныя фарматы. Ён таксама здольны фільтраваць і сартаваць вынікі.
P_dvf --in mi_1\|2 --filter '($value < 9) | ($key =~ m{\b(that|this|was|and|we|she|he|I|a|is|are|the|be)\b}xmsi)' --sort '+val'
email: sales@petamem.com
тэлефон: +49 911 894 6455
факс: +420 284 680 110
А зараз добрая частка. PMSE - гэта камерцыйны прадукт для акадэмічнага сектара, і PetaMem хоча прапанаваць вам пакет "усё ўключана, без клопату, без турбот". Мы таксама хочам, каб гэты пакет праграм быў даступны для ўсіх. Існуюць дзве простыя мадэлі ліцэнзавання: на карыстальніка на працоўную станцыю, што складае 49,- EUR у месяц, або для ўсяго аддзела, што складае 499,- EUR у месяц без абмежаванняў на колькасць карыстальнікаў або працоўных станцый (уключаючы студэнтаў). Усе цэны + 19% ПДВ, які не прымяняецца, калі вы знаходзіцеся па-за межамі Германіі і маеце нумар ПДВ.
Мы абяцаем ліцэнзаванне "без клопату, без турбот". З кошту ліцэнзавання вы атрымліваеце не толькі права на выкарыстанне праграмнага забеспячэння, але і бясплатныя абнаўленні праграмнага забеспячэння і бясплатную падтрымку. Любыя абнаўленні/паніжэнні ліцэнзіі інтуітыўна зразумелыя і робяць тое, што вы маеце на ўвазе. У вас было пяць асобных ліцэнзій, і вы хочаце атрымаць ліцэнзію для аддзела або наадварот? Зусім не праблема! Проста паведаміце нам па электроннай пошце, і мы адкарэктуем умовы ліцэнзавання ў той жа працоўны дзень.
І гэта яшчэ лепш: наша кампанія прыхільна ставіцца да адкрытага зыходнага кода, і калі мы залежым ад камерцыйнага праграмнага забеспячэння, ёсць толькі некалькі рэчаў, якіх мы хочам пазбегнуць больш, чым блакіроўкі пастаўшчыка. У вас могуць быць падобныя праблемы, калі вы залежыце ад камерцыйнага прадукту, і мы цалкам гэта разумеем. Калі вы вырашыце спыніць падпіску на ліцэнзію PMSE - ну - вы захоўваеце PMSE і можаце працягваць яго выкарыстоўваць. Вы страціце бясплатныя абнаўленні і бясплатную падтрымку, але вы можаце працягваць выкарыстоўваць праграмнае забеспячэнне. Бясплатна.
Калі ў вас ёсць якія-небудзь дадатковыя пытанні адносна ліцэнзавання або вы хочаце заказаць прадукт, калі ласка, не саромейцеся звяртацца да sales@petamem.com.
Калі ў вас ёсць дадатковыя дэталёвыя тэхнічныя пытанні, калі ласка, звяртайцеся да support@petamem.com
закрыць