Першыя крокі

Гэты даведнік павінен праілюстраваць, як працаваць з PMSE (і, магчыма, як пачаць). Ён пазнаёміць вас з асноўнымі функцыямі, якія ўяўляюць асноўную функцыянальнасць PMSE.

Бібліятэка даных

Універсальны пакет праграмнага забеспячэння і праміжнае ПЗ для SNLP. Філасофія UNIX: будаўнічы набор з невялікіх адзінак, якія могуць быць аб'яднаны ў новы набор інструментаў. Не залежыць ад мовы. Напісана на Perl, аўтаматызаваны набор тэстаў з высокім ахопам кода, падтрымлівае UTF-8. Заснавана на CLI, эфектыўная і паралельная апрацоўка. Дэталёвая дакументацыя. Даступны інтэрактыўны рэжым.

Спачатку мы павінны вызначыць працоўнае асяроддзе. PMSE распрацавана для апрацоўкі дакументаў незалежна ад мовы, на якой яны напісаны. Таму мы прынялі стратэгію працы з дакументамі на розных мовах. Мы ўвялі каранёвы каталог для бібліятэкі, які знаходзіцца ў:

/data/library/

Калі корань бібліятэкі ўстаноўлены, могуць быць дададзены каталогі для канкрэтных моў. Код вызначаецца са спецыфікацыі мовы iso-639-3. Такім чынам, каталог для англійскай мовы будзе:

 /data/library/e/n/g/. 

Калі вы хочаце стварыць сваю бібліятэку з нуля, вам спатрэбіцца каталог, дзе будуць размешчаны зыходныя файлы. Такі каталог мы называем original. Калі ў вас ёсць вашы файлы, вы павінны апрацаваць іх (пераўтварыць у звычайны тэкст, выканаць таканізацыю, выняць n-грамы і г.д.), каб атрымаць неабходную інфармацыю. Апрацаваныя файлы будуць захаваны ў каталогу derived.

Атрыманне файла

Get File Diagram

Скрыпт P_daf быў распрацаваны для забеспячэння асновы для аўтаматызаванай загрузкі. P_daf чытае INI-файл, у якім вызначаны URL-адрас мэты. Вось прыклад вельмі простага INI-файла з назвай demo.ini:

     [global]
                  lastfetch = 2013-01-30 00:00:00
                  interval  = 6 months
                  name      = demo

                  [Hyperion]
                  threads = 1;
                  BASE  = http://www.gutenberg.org
                  url   = %BASE%/ebooks/5436
                  match = a\shref="(?<file>http://www.gutenberg.org/ebooks/(?<id>\d+).(?<type>kindle).noimages)"\stype
                  get   = $file        store = "$ENV{PMCORP_ROOT}/e/n/g/original/Hyperion.mobi"

Значэнне секцый і аргументаў у файле апісана ў даведніку PMSE. Файл demo.ini павінен быць захаваны ў каталогу $PMSE_BIN/cfg/daf.d/. Калі вы размясцілі INI там, вы можаце цяпер выклікаць скрыпт:

 P_daf --fetch demo 

Пасля загрузкі файл 5436.epub павінен быць размешчаны ў каталогу /data/library/e/n/g/original/.

Пераўтварэнне файла

Спачатку перайдзіце ў бібліятэку, а потым выклічце скрыпт P_dmf. Для пераўтварэння фармату MOBI у txt вам трэба ўсталяваць менеджэр электронных кніг calibre, які выкарыстоўваецца P_dmf як адзін з інтэграваных інструментаў. Вы можаце выкарыстоўваць флаг PM_CONVERTOR_WARNINGS=1, каб паказаць канвертары, якіх не хапае ў вашай сістэме.

        cd /data/library/e/n/g/
        PM_CONVERTOR_WARNINGS=1 P_dmf --in /data/library/e/n/g/original/ 

Калі ўсё прайшло добра, вы павінны ўбачыць каталог /data/library/e/n/g/derived/. Ён павінен змяшчаць тэкставы файл з назвай Hyperion.txt. Давайце паглядзім на яго структуру:

 tree derived/
             derived/
              ├── Hyperion.mobi
              │   ├── lvl.last
              │   └── Hyperion.mobi
              │   │       └── Hyperion.txt -> /data/library/e/n/g/derived/Hyperion.mobi/./lvl.1/Hyperion.mobi/Hyperion.txt
              │   └── lvl.1
              │       └── Hyperion.mobi
              │           └── Hyperion.txt

Ачыстка файла

Файл txt змяшчае загаловак і падвал з інфармацыяй з Gutenberg. Мы выкарыстаем P_rer, каб 'ачысціць' файл.

        P_rer 's{.+?(Title:\sHyperion)}{$1}xms' Hyperion.txt
        P_rer 's{\*\*\*\sEND\sOF\sTHE\sPROJECT.+}{}xms' Hyperion.txt

Выдаленне гэтых секцый забяспечыць правільнасць выняты лінгвістычных даных. (Паўтарэнне токенаў можа паўплываць на размеркаванне частот.)

Таканізацыя

Tokenization

У PMSE ёсць просты загадзя вызначаны таканізатар і сегментатар сказаў для англійскай мовы. Абодва выкарыстоўваюць P_rer і маюць форму макраса. Макрас тут - гэта абалонка shell - скрыпт, які выклікаецца з канкрэтнымі аргументамі.

         MAK_tokenize Hyperion.txt eng
         MAK_1s1l -l eng -i Hyperion.txt

Вынятак N-грамаў

n-grams diagram

Асноўная функцыянальнасць PMSE - генерацыя n-грамаў і падлік розных статыстычных дадзеных. Наступны код возьме ў якасці ўваходных дадзеных усе txt-файлы ў каталогу derived і будзе генераваць біграмы і лічыць іх MI-бал.

 P_gnp --in derived/ --cluster count --ifilter '+token=\A[\w\d]+\z' --out bigrams --measure 'mi=all' --report 3 

Заўвага: Мы выкарысталі стандартную спецыфікацыю n-грамаў. Параметр мае форму: --ngrams 2 2 ' ' (n-грамы памеру 2, з акна памеру 2, і раздзяляльнік паміж токенамі - прабел).

Візуалізацыя і Фільтрацыя

Біграмы захаваны як унутраны аб'ект PMSE. Скрыпт P_dvf здольны пераўтварыць гэтую структуру ў розныя фарматы. Ён таксама здольны фільтраваць і сартаваць вынікі.

 P_dvf --in mi_1\|2 --filter '($value < 9) | ($key =~   m{\b(that|this|was|and|we|she|he|I|a|is|are|the|be)\b}xmsi)' --sort   '+val' 

Купіць PMSE

email: sales@petamem.com
тэлефон: +49 911 894 6455
факс: +420 284 680 110

Кошт ліцэнзавання

А зараз добрая частка. PMSE - гэта камерцыйны прадукт для акадэмічнага сектара, і PetaMem хоча прапанаваць вам пакет "усё ўключана, без клопату, без турбот". Мы таксама хочам, каб гэты пакет праграм быў даступны для ўсіх. Існуюць дзве простыя мадэлі ліцэнзавання: на карыстальніка на працоўную станцыю, што складае 49,- EUR у месяц, або для ўсяго аддзела, што складае 499,- EUR у месяц без абмежаванняў на колькасць карыстальнікаў або працоўных станцый (уключаючы студэнтаў). Усе цэны + 19% ПДВ, які не прымяняецца, калі вы знаходзіцеся па-за межамі Германіі і маеце нумар ПДВ.

Умовы ліцэнзавання

Мы абяцаем ліцэнзаванне "без клопату, без турбот". З кошту ліцэнзавання вы атрымліваеце не толькі права на выкарыстанне праграмнага забеспячэння, але і бясплатныя абнаўленні праграмнага забеспячэння і бясплатную падтрымку. Любыя абнаўленні/паніжэнні ліцэнзіі інтуітыўна зразумелыя і робяць тое, што вы маеце на ўвазе. У вас было пяць асобных ліцэнзій, і вы хочаце атрымаць ліцэнзію для аддзела або наадварот? Зусім не праблема! Проста паведаміце нам па электроннай пошце, і мы адкарэктуем умовы ліцэнзавання ў той жа працоўны дзень.

І гэта яшчэ лепш: наша кампанія прыхільна ставіцца да адкрытага зыходнага кода, і калі мы залежым ад камерцыйнага праграмнага забеспячэння, ёсць толькі некалькі рэчаў, якіх мы хочам пазбегнуць больш, чым блакіроўкі пастаўшчыка. У вас могуць быць падобныя праблемы, калі вы залежыце ад камерцыйнага прадукту, і мы цалкам гэта разумеем. Калі вы вырашыце спыніць падпіску на ліцэнзію PMSE - ну - вы захоўваеце PMSE і можаце працягваць яго выкарыстоўваць. Вы страціце бясплатныя абнаўленні і бясплатную падтрымку, але вы можаце працягваць выкарыстоўваць праграмнае забеспячэнне. Бясплатна.

Калі ў вас ёсць якія-небудзь дадатковыя пытанні адносна ліцэнзавання або вы хочаце заказаць прадукт, калі ласка, не саромейцеся звяртацца да sales@petamem.com.

Калі ў вас ёсць дадатковыя дэталёвыя тэхнічныя пытанні, калі ласка, звяртайцеся да support@petamem.com

закрыць