Почетак

Овај водич треба да илуструје како радити са PMSE (и можда како започети). Упознаће вас са основним функцијама које представљају кључну функционалност PMSE-а.

Библиотека података

Генерички софтверски пакет и посредник за SNLP. UNIX филозофија: компонентни комплет малих јединица које се могу комбиновати у нови низ алата. Језички-независан. Написан у Perl-у, аутоматизовани тест пакет високе покривености кода, UTF-8 подршка. Базиран на CLI, ефикасна и паралелна обрада. Детаљна документација. Доступан интерактивни режим.

Прво морамо дефинисати радно окружење. PMSE је дизајниран да обрађује документе независно од језика на којем су написани. Зато смо усвојили стратегију како радити са документима на различитим језицима. Успоставили смо корен за библиотеку који се налази у:

/data/library/

Када је корен библиотеке постављен, могу се додати директоријуми за одређене језике. Код је изведен из iso-639-3 језичке спецификације. Директоријум за енглески ће стога бити:

 /data/library/e/n/g/. 

Ако желите да изградите своју библиотеку од почетка, требаће вам директоријум у којем ће се налазити изворне датотеке. Такав директоријум зовемо original, када имате своје датотеке, треба да их обрадите (конвертујете у обичан текст, извршите токенизацију, екстракцију н-грама и тако даље) да бисте добили жељене информације. Обрађене датотеке биће сачуване у derived директоријуму.

Преузимање датотеке

дијаграм преузимања датотеке

P_daf скрипта је дизајнирана да обезбеди оквир за аутоматизовано преузимање. P_daf чита INI датотеку у којој је наведен URL циља. Ево примера веома једноставне INI датотеке која се зове demo.ini:

     [global]
                  lastfetch = 2013-01-30 00:00:00
                  interval  = 6 months
                  name      = demo

                  [Hyperion]
                  threads = 1;
                  BASE  = http://www.gutenberg.org
                  url   = %BASE%/ebooks/5436
                  match = a\shref="(?http://www.gutenberg.org/ebooks/(?\d+).(?kindle).noimages)"\stype
                  get   = $file        store = "$ENV{PMCORP_ROOT}/e/n/g/original/Hyperion.mobi"

Значење секција и аргумената у датотеци је описано у PMSE приручнику. demo.ini датотека мора бити сачувана у $PMSE_BIN/cfg/daf.d/ директоријуму. Ако сте поставили INI тамо, сада можете позвати скрипту:

 P_daf --fetch demo 

Након преузимања, датотека 5436.epub треба да буде смештена у /data/library/e/n/g/original/ директоријуму.

Конверзија датотеке

Прво, идите у библиотеку и затим позовите P_dmf скрипту. За конверзију MOBI формата у txt, требало би да инсталирате calibre менаџер е-књига, који користи P_dmf као један од интегрисаних алата. Можете користити PM_CONVERTOR_WARNINGS=1 заставицу да прикажете конверторе који недостају на вашем систему.

        cd /data/library/e/n/g/
        PM_CONVERTOR_WARNINGS=1 P_dmf --in /data/library/e/n/g/original/ 

Ако је све прошло добро, требало би да видите /data/library/e/n/g/derived/ директоријум. Требало би да садржи текстуалну датотеку под називом Hyperion.txt. Прикажимо њену структуру:

 tree derived/
             derived/
              ├── Hyperion.mobi
              │   ├── lvl.last

              │   └── Hyperion.mobi
              │   │       └── Hyperion.txt -> /data/library/e/n/g/derived/Hyperion.mobi/./lvl.1/Hyperion.mobi/Hyperion.txt
              │   └── lvl.1
              │       └── Hyperion.mobi
              │           └── Hyperion.txt

Чишћење датотеке

Текстуална датотека садржи заглавље и подножје са Gutenberg информацијама. Користићемо P_rer да 'очистимо' датотеку.

        P_rer 's{.+?(Title:\sHyperion)}{$1}xms' Hyperion.txt
        P_rer 's{\*\*\*\sEND\sOF\sTHE\sPROJECT.+}{}xms' Hyperion.txt

Уклањање ових секција ће осигурати да екстраховани лингвистички подаци буду тачни. (Понављање токена може утицати на дистрибуцију фреквенција.)

Токенизација

токенизација

У PMSE постоји једноставан предефинисан токенизатор и сегментатор реченица за енглески. Оба користе P_rer и имају форму макроа. Макро је овде шел обавијач - скрипта која се позива са специфичним аргументима.

         MAK_tokenize Hyperion.txt eng
         MAK_1s1l -l eng -i Hyperion.txt

Екстракција н-грама

дијаграм н-грама

Кључна функционалност PMSE-а је генерисање н-грама и бројање различитих статистичких информација. Следећи код ће узети као улаз све txt датотеке у derived директоријуму и генерисаће биграме и израчунати њихов MI-скор.

 P_gnp --in derived/ --cluster count --ifilter '+token=\A[\w\d]+\z' --out bigrams --measure 'mi=all' --report 3 

Напомена: Користили смо подразумевану спецификацију н-грама. Параметар изгледа овако: --ngrams 2 2 ' ' (н-грами величине 2, из прозора величине 2 и сепаратор између токена је размак).

Визуелизација и филтрирање

Биграми су сачувани као интерни PMSE објекат. P_dvf скрипта је способна да конвертује ову структуру у различите формате. Такође, може да филтрира и сортира резултате.

 P_dvf --in mi_1\|2 --filter '($value < 9) | ($key =~   m{\b(that|this|was|and|we|she|he|I|a|is|are|the|be)\b}xmsi)' --sort   '+val' 

Купите PMSE

имејл: sales@petamem.com
телефон: +49 911 894 6455
факс: +420 284 680 110

Цена лиценце

Верујте или не, сада долази добар део. PMSE је комерцијални производ за академски сектор и PetaMem жели да вам понуди "све укључено, без компликација, без брига" пакет. Такође желимо да овај софтверски пакет буде приступачан свима. Постоје два једноставна модела лиценцирања: по кориснику по радној станици, што је 49,- EUR месечно или за цео одсек, што је 499,- EUR месечно без ограничења броја корисника или радних станица (укључујући студенте). Све цене су + 19% ПДВ, што се не примењује ако сте ван Немачке и имате ПДВ-ИД.

Услови лиценцирања

Обећавамо "без компликација, без брига" лиценцирање. Са ценом лиценце добијате не само право коришћења софтвера, већ и бесплатна надоградње софтвера и бесплатну подршку. Било које надоградње/деградације лиценце су интуитивне и раде-оно-што-мислим. Имали сте пет појединачних лиценци и желели бисте лиценцу за одсек или обрнуто? Нема проблема! Једноставно обавестите нас путем имејла и прилагодићемо услове лиценцирања истог радног дана.

Још боље: наша компанија је посвећена отвореном софтверу и када се ослањамо на комерцијални софтвер, постоји мало ствари које желимо да избегнемо више од везивања за добављача. Можда имате сличне бриге када се ослањате на комерцијални производ и потпуно разумемо то. Ако одлучите да прекинете претплату на лиценцу за PMSE - па - задржавате PMSE и дозвољено вам је да наставите да га користите. Губите бесплатне надоградње и бесплатну подршку, али настављате да користите софтвер. Бесплатно.

Ако имате било каква додатна питања у вези са лиценцирањем или желите да наручите производ, не оклевајте да контактирате sales@petamem.com.

Ако имате додатна детаљна техничка питања, контактирајте support@petamem.com

затвори