Това ръководство има за цел да илюстрира как да работите с PMSE (и може би как да започнете). То ще ви запознае с основните функции, които представляват основната функционалност на PMSE.
Универсален софтуерен пакет и междинен софтуер за SNLP. UNIX философия: строителен комплект от малки единици, които могат да бъдат комбинирани в нов набор от инструменти. Езиково независим. Написан на Perl, автоматизиран тестов пакет с високо покритие на кода, поддържа UTF-8. Базиран на CLI, ефективна и паралелна обработка. Подробна документация. Наличен е интерактивен режим.
Първо трябва да дефинираме работната среда. PMSE е проектиран за обработка на документи независимо от езика, на който са написани. Затова приехме стратегия за работа с документи на различни езици. Въведохме коренна директория за библиотеката, която се намира в:
/data/library/
Когато коренът на библиотеката е зададен, могат да бъдат добавени директории за конкретни езици. Кодът се извлича от спецификацията за език iso-639-3. Така директорията за английски език ще бъде:
/data/library/e/n/g/.
Ако искате да създадете своята библиотека от нулата, ще ви трябва директория, където ще бъдат поставени изходните файлове. Такава директория наричаме original. След като имате файловете си, трябва да ги обработите (да ги конвертирате в обикновен текст, да извършите токенизация, да извлечете n-грами и т.н.), за да получите необходимата информация. Обработените файлове ще бъдат съхранени в директорията derived.
Скриптът P_daf е проектиран да предоставя рамка за автоматизирано изтегляне. P_daf чете INI файл, в който е определен целевият URL адрес. Ето пример за много прост INI файл, наречен demo.ini:
[global]
lastfetch = 2013-01-30 00:00:00
interval = 6 months
name = demo
[Hyperion]
threads = 1;
BASE = http://www.gutenberg.org
url = %BASE%/ebooks/5436
match = a\shref="(?<file>http://www.gutenberg.org/ebooks/(?<id>\d+).(?<type>kindle).noimages)"\stype
get = $file store = "$ENV{PMCORP_ROOT}/e/n/g/original/Hyperion.mobi"
Значението на секциите и аргументите във файла е описано в ръководството за PMSE. Файлът demo.ini трябва да бъде съхранен в директорията $PMSE_BIN/cfg/daf.d/. Ако сте поставили INI там, сега можете да извикате скрипта:
P_daf --fetch demo
След изтеглянето файлът 5436.epub трябва да се намира в директорията /data/library/e/n/g/original/.
Първо отидете в библиотеката и след това извикайте скрипта P_dmf. За да конвертирате формата MOBI в txt, трябва да инсталирате мениджъра на електронни книги calibre, който се използва от P_dmf като един от интегрираните инструменти. Можете да използвате флага PM_CONVERTOR_WARNINGS=1, за да покажете конверторите, които липсват във вашата система.
cd /data/library/e/n/g/
PM_CONVERTOR_WARNINGS=1 P_dmf --in /data/library/e/n/g/original/
Ако всичко е минало добре, трябва да видите директорията /data/library/e/n/g/derived/. Тя трябва да съдържа текстов файл с името Hyperion.txt. Нека да видим неговата структура:
tree derived/
derived/
├── Hyperion.mobi
│ ├── lvl.last
│ └── Hyperion.mobi
│ │ └── Hyperion.txt -> /data/library/e/n/g/derived/Hyperion.mobi/./lvl.1/Hyperion.mobi/Hyperion.txt
│ └── lvl.1
│ └── Hyperion.mobi
│ └── Hyperion.txt
Текстовият файл съдържа заглавка и долен колонтитул с информация от Gutenberg. Ще използваме P_rer, за да 'почистим' файла.
P_rer 's{.+?(Title:\sHyperion)}{$1}xms' Hyperion.txt
P_rer 's{\*\*\*\sEND\sOF\sTHE\sPROJECT.+}{}xms' Hyperion.txt
Премахването на тези секции ще гарантира, че извлечените лингвистични данни са правилни. (Повторението на токени може да повлияе на разпределението на честотите.)
В PMSE има прост предварително дефиниран токенизатор и сегментатор на изречения за английски език. И двата използват P_rer и имат формата на макрос. Макросът тук е обвивка на shell - скрипт, който се извиква със специфични аргументи.
MAK_tokenize Hyperion.txt eng
MAK_1s1l -l eng -i Hyperion.txt
Основната функционалност на PMSE е генерирането на n-грами и изчисляването на различна статистическа информация. Следният код ще вземе като вход всички txt файлове в директорията derived и ще генерира биграми и ще изчисли техния MI резултат.
P_gnp --in derived/ --cluster count --ifilter '+token=\A[\w\d]+\z' --out bigrams --measure 'mi=all' --report 3
Забележка: Използвахме спецификацията по подразбиране за n-грами. Параметърът има формата: --ngrams 2 2 ' ' (n-грами с размер 2, от прозорец с размер 2 и разделител между токените е интервал).
Биграмите се съхраняват като вътрешен обект на PMSE. Скриптът P_dvf може да конвертира тази структура в различни формати. Той също така може да филтрира и сортира резултатите.
P_dvf --in mi_1\|2 --filter '($value < 9) | ($key =~ m{\b(that|this|was|and|we|she|he|I|a|is|are|the|be)\b}xmsi)' --sort '+val'
email: sales@petamem.com
телефон: +49 911 894 6455
факс: +420 284 680 110
А сега идва хубавата част. PMSE е комерсиален продукт за академичния сектор и PetaMem иска да ви предложи пакет "всичко включено, без проблеми, без грижи". Искаме също така този софтуерен пакет да бъде достъпен за всички. Има два прости модела на лицензиране: на потребител на работна станция, което е 49,- EUR на месец, или за цял отдел, което е 499,- EUR на месец без ограничения за броя на потребителите или работните станции (включително студенти). Всички цени са + 19% ДДС, което не се прилага, ако сте извън Германия и имате номер по ДДС.
Обещаваме лицензиране "без проблеми, без грижи". С цената на лицензирането получавате не само правото да използвате софтуера, но и безплатни актуализации на софтуера и безплатна поддръжка. Всички актуализации/понижения на лиценза са интуитивни и правят това, което имате предвид. Имахте пет единични лиценза и бихте искали лиценз за отдел или обратното? Няма проблем! Просто ни уведомете по имейл и ще коригираме условията за лицензиране в същия работен ден.
И става още по-добре: нашата компания е ангажирана с отворения код и когато разчитаме на комерсиален софтуер, има само няколко неща, които искаме да избегнем повече от зависимост от доставчик. Може да имате подобни опасения, когато разчитате на комерсиален продукт, и ние напълно го разбираме. Ако решите да прекратите абонамента за лиценз на PMSE - е - запазвате PMSE и имате право да продължите да го използвате. Губите безплатните актуализации и безплатната поддръжка, но продължавате да използвате софтуера. Безплатно.
Ако имате допълнителни въпроси относно лицензирането или искате да поръчате продукта, моля не се колебайте да се свържете с sales@petamem.com.
Ако имате допълнителни подробни технически въпроси, моля свържете се с support@petamem.com
затвори