Първи стъпки

Това ръководство има за цел да илюстрира как да работите с PMSE (и може би как да започнете). То ще ви запознае с основните функции, които представляват основната функционалност на PMSE.

Библиотека от данни

Универсален софтуерен пакет и междинен софтуер за SNLP. UNIX философия: строителен комплект от малки единици, които могат да бъдат комбинирани в нов набор от инструменти. Езиково независим. Написан на Perl, автоматизиран тестов пакет с високо покритие на кода, поддържа UTF-8. Базиран на CLI, ефективна и паралелна обработка. Подробна документация. Наличен е интерактивен режим.

Първо трябва да дефинираме работната среда. PMSE е проектиран за обработка на документи независимо от езика, на който са написани. Затова приехме стратегия за работа с документи на различни езици. Въведохме коренна директория за библиотеката, която се намира в:

/data/library/

Когато коренът на библиотеката е зададен, могат да бъдат добавени директории за конкретни езици. Кодът се извлича от спецификацията за език iso-639-3. Така директорията за английски език ще бъде:

 /data/library/e/n/g/. 

Ако искате да създадете своята библиотека от нулата, ще ви трябва директория, където ще бъдат поставени изходните файлове. Такава директория наричаме original. След като имате файловете си, трябва да ги обработите (да ги конвертирате в обикновен текст, да извършите токенизация, да извлечете n-грами и т.н.), за да получите необходимата информация. Обработените файлове ще бъдат съхранени в директорията derived.

Получаване на файл

Get File Diagram

Скриптът P_daf е проектиран да предоставя рамка за автоматизирано изтегляне. P_daf чете INI файл, в който е определен целевият URL адрес. Ето пример за много прост INI файл, наречен demo.ini:

     [global]
                  lastfetch = 2013-01-30 00:00:00
                  interval  = 6 months
                  name      = demo

                  [Hyperion]
                  threads = 1;
                  BASE  = http://www.gutenberg.org
                  url   = %BASE%/ebooks/5436
                  match = a\shref="(?<file>http://www.gutenberg.org/ebooks/(?<id>\d+).(?<type>kindle).noimages)"\stype
                  get   = $file        store = "$ENV{PMCORP_ROOT}/e/n/g/original/Hyperion.mobi"

Значението на секциите и аргументите във файла е описано в ръководството за PMSE. Файлът demo.ini трябва да бъде съхранен в директорията $PMSE_BIN/cfg/daf.d/. Ако сте поставили INI там, сега можете да извикате скрипта:

 P_daf --fetch demo 

След изтеглянето файлът 5436.epub трябва да се намира в директорията /data/library/e/n/g/original/.

Конвертиране на файл

Първо отидете в библиотеката и след това извикайте скрипта P_dmf. За да конвертирате формата MOBI в txt, трябва да инсталирате мениджъра на електронни книги calibre, който се използва от P_dmf като един от интегрираните инструменти. Можете да използвате флага PM_CONVERTOR_WARNINGS=1, за да покажете конверторите, които липсват във вашата система.

        cd /data/library/e/n/g/
        PM_CONVERTOR_WARNINGS=1 P_dmf --in /data/library/e/n/g/original/ 

Ако всичко е минало добре, трябва да видите директорията /data/library/e/n/g/derived/. Тя трябва да съдържа текстов файл с името Hyperion.txt. Нека да видим неговата структура:

 tree derived/
             derived/
              ├── Hyperion.mobi
              │   ├── lvl.last
              │   └── Hyperion.mobi
              │   │       └── Hyperion.txt -> /data/library/e/n/g/derived/Hyperion.mobi/./lvl.1/Hyperion.mobi/Hyperion.txt
              │   └── lvl.1
              │       └── Hyperion.mobi
              │           └── Hyperion.txt

Почистване на файл

Текстовият файл съдържа заглавка и долен колонтитул с информация от Gutenberg. Ще използваме P_rer, за да 'почистим' файла.

        P_rer 's{.+?(Title:\sHyperion)}{$1}xms' Hyperion.txt
        P_rer 's{\*\*\*\sEND\sOF\sTHE\sPROJECT.+}{}xms' Hyperion.txt

Премахването на тези секции ще гарантира, че извлечените лингвистични данни са правилни. (Повторението на токени може да повлияе на разпределението на честотите.)

Токенизация

Tokenization

В PMSE има прост предварително дефиниран токенизатор и сегментатор на изречения за английски език. И двата използват P_rer и имат формата на макрос. Макросът тук е обвивка на shell - скрипт, който се извиква със специфични аргументи.

         MAK_tokenize Hyperion.txt eng
         MAK_1s1l -l eng -i Hyperion.txt

Извличане на N-грами

n-grams diagram

Основната функционалност на PMSE е генерирането на n-грами и изчисляването на различна статистическа информация. Следният код ще вземе като вход всички txt файлове в директорията derived и ще генерира биграми и ще изчисли техния MI резултат.

 P_gnp --in derived/ --cluster count --ifilter '+token=\A[\w\d]+\z' --out bigrams --measure 'mi=all' --report 3 

Забележка: Използвахме спецификацията по подразбиране за n-грами. Параметърът има формата: --ngrams 2 2 ' ' (n-грами с размер 2, от прозорец с размер 2 и разделител между токените е интервал).

Визуализация и Филтриране

Биграмите се съхраняват като вътрешен обект на PMSE. Скриптът P_dvf може да конвертира тази структура в различни формати. Той също така може да филтрира и сортира резултатите.

 P_dvf --in mi_1\|2 --filter '($value < 9) | ($key =~   m{\b(that|this|was|and|we|she|he|I|a|is|are|the|be)\b}xmsi)' --sort   '+val' 

Купете PMSE

email: sales@petamem.com
телефон: +49 911 894 6455
факс: +420 284 680 110

Цена на лицензиране

А сега идва хубавата част. PMSE е комерсиален продукт за академичния сектор и PetaMem иска да ви предложи пакет "всичко включено, без проблеми, без грижи". Искаме също така този софтуерен пакет да бъде достъпен за всички. Има два прости модела на лицензиране: на потребител на работна станция, което е 49,- EUR на месец, или за цял отдел, което е 499,- EUR на месец без ограничения за броя на потребителите или работните станции (включително студенти). Всички цени са + 19% ДДС, което не се прилага, ако сте извън Германия и имате номер по ДДС.

Условия за лицензиране

Обещаваме лицензиране "без проблеми, без грижи". С цената на лицензирането получавате не само правото да използвате софтуера, но и безплатни актуализации на софтуера и безплатна поддръжка. Всички актуализации/понижения на лиценза са интуитивни и правят това, което имате предвид. Имахте пет единични лиценза и бихте искали лиценз за отдел или обратното? Няма проблем! Просто ни уведомете по имейл и ще коригираме условията за лицензиране в същия работен ден.

И става още по-добре: нашата компания е ангажирана с отворения код и когато разчитаме на комерсиален софтуер, има само няколко неща, които искаме да избегнем повече от зависимост от доставчик. Може да имате подобни опасения, когато разчитате на комерсиален продукт, и ние напълно го разбираме. Ако решите да прекратите абонамента за лиценз на PMSE - е - запазвате PMSE и имате право да продължите да го използвате. Губите безплатните актуализации и безплатната поддръжка, но продължавате да използвате софтуера. Безплатно.

Ако имате допълнителни въпроси относно лицензирането или искате да поръчате продукта, моля не се колебайте да се свържете с sales@petamem.com.

Ако имате допълнителни подробни технически въпроси, моля свържете се с support@petamem.com

затвори