Початок роботи

Цей посібник має проілюструвати, як працювати з PMSE (і, можливо, як почати). Він познайомить вас з основними функціями, які представляють основну функціональність PMSE.

Бібліотека даних

Універсальний програмний пакет і проміжне програмне забезпечення для SNLP. Філософія UNIX: набір для збірки невеликих блоків, які можна комбінувати в новий інструментарій. Незалежний від мови. Написаний на Perl, автоматизований тестовий набір з високим покриттям коду, підтримка UTF-8. На основі CLI, ефективна та паралельна обробка. Ретельна документація. Доступний інтерактивний режим.

Спочатку нам потрібно визначити робоче середовище. PMSE призначений для обробки документів незалежно від мови, на якій вони написані. Тому ми прийняли стратегію роботи з документами різними мовами. Ми встановили корінь для бібліотеки, що розміщена в:

/data/library/

Коли корінь бібліотеки встановлено, можна додавати каталоги для конкретних мов. Код походить від специфікації мови iso-639-3. Таким чином, каталог для англійської мови буде:

 /data/library/e/n/g/. 

Якщо ви хочете створити свою бібліотеку з нуля, вам знадобиться каталог, у якому будуть знаходитися вихідні файли. Ми називаємо такий каталог original, як тільки у вас будуть ваші файли, вам потрібно їх обробити (перетворити в простий текст, виконати токенізацію, вилучення n-грам тощо), щоб отримати бажану інформацію. Оброблені файли будуть зберігатися в каталозі derived.

Отримання файлу

Діаграма отримання файлу

Сценарій P_daf був розроблений для забезпечення структури для автоматизованого завантаження. P_daf зчитує INI-файл, у якому вказано URL-адресу цілі. Ось приклад дуже простого INI-файлу під назвою demo.ini:

     [global]
                  lastfetch = 2013-01-30 00:00:00
                  interval  = 6 months
                  name      = demo

                  [Hyperion]
                  threads = 1;
                  BASE  = http://www.gutenberg.org
                  url   = %BASE%/ebooks/5436
                  match = a\shref="(?http://www.gutenberg.org/ebooks/(?\d+).(?kindle).noimages)"\stype
                  get   = $file        store = "$ENV{PMCORP_ROOT}/e/n/g/original/Hyperion.mobi"

Значення розділів і аргументів у файлі описано в посібнику PMSE. Файл demo.ini має бути збережений у каталозі $PMSE_BIN/cfg/daf.d/. Якщо ви розмістили INI там, тепер ви можете викликати сценарій:

 P_daf --fetch demo 

Після завантаження файл 5436.epub має бути розміщений у каталозі /data/library/e/n/g/original/.

Перетворення файлу

Спочатку перейдіть до бібліотеки, а потім викликайте сценарій P_dmf. Для перетворення формату MOBI в txt вам слід встановити менеджер електронних книг calibre, який використовується P_dmf як один з інтегрованих інструментів. Ви можете використовувати прапорець PM_CONVERTOR_WARNINGS=1 для відображення конверторів, яких не вистачає у вашій системі.

        cd /data/library/e/n/g/
        PM_CONVERTOR_WARNINGS=1 P_dmf --in /data/library/e/n/g/original/ 

Якщо все пройшло добре, ви побачите каталог /data/library/e/n/g/derived/. Він має містити текстовий файл з назвою Hyperion.txt. Давайте відобразимо його структуру:

 tree derived/
             derived/
              ├── Hyperion.mobi
              │   ├── lvl.last

              │   └── Hyperion.mobi
              │   │       └── Hyperion.txt -> /data/library/e/n/g/derived/Hyperion.mobi/./lvl.1/Hyperion.mobi/Hyperion.txt
              │   └── lvl.1
              │       └── Hyperion.mobi
              │           └── Hyperion.txt

Очищення файлу

Текстовий файл містить заголовок і нижній колонтитул з інформацією Gutenberg. Ми будемо використовувати P_rer для "очищення" файлу.

        P_rer 's{.+?(Title:\sHyperion)}{$1}xms' Hyperion.txt
        P_rer 's{\*\*\*\sEND\sOF\sTHE\sPROJECT.+}{}xms' Hyperion.txt

Видалення цих розділів забезпечить правильність вилучених лінгвістичних даних. (Повторення токенів може вплинути на розподіл частот.)

Токенізація

Токенізація

У PMSE існує простий попередньо визначений токенізатор і сегментатор речень для англійської мови. Обидва використовують P_rer і мають форму макросу. Макрос тут - це обгортка оболонки - сценарій, який викликається з конкретними аргументами.

         MAK_tokenize Hyperion.txt eng
         MAK_1s1l -l eng -i Hyperion.txt

Вилучення N-грам

діаграма n-грам

Основна функціональність PMSE - це генерація n-грам і підрахунок різної статистичної інформації. Наступний код візьме як вхідні дані всі txt-файли в каталозі derived і згенерує біграми та підрахує їх MI-оцінку.

 P_gnp --in derived/ --cluster count --ifilter '+token=\A[\w\d]+\z' --out bigrams --measure 'mi=all' --report 3 

Примітка: Ми використали специфікацію n-грам за замовчуванням. Параметр має такий вигляд: --ngrams 2 2 ' ' (n-грами розміром 2, з вікна розміром 2, а роздільник між токенами - це пробіл).

Візуалізація та фільтрування

Біграми зберігаються як внутрішній об'єкт PMSE. Сценарій P_dvf здатний перетворити цю структуру в різні формати. Також він може фільтрувати та сортувати результати.

 P_dvf --in mi_1\|2 --filter '($value < 9) | ($key =~   m{\b(that|this|was|and|we|she|he|I|a|is|are|the|be)\b}xmsi)' --sort   '+val' 

Придбати PMSE

email: sales@petamem.com
phone: +49 911 894 6455
fax: +420 284 680 110

Вартість ліцензування

Вірите або ні, а тепер найкраще. PMSE - це комерційний продукт для академічного сектору, і PetaMem хоче запропонувати вам пакет "все включено, без клопоту, без проблем". Ми також хочемо, щоб цей програмний пакет був доступним для всіх. Існують дві прості моделі ліцензування: на одного користувача на одну робочу станцію, що становить 49 євро на місяць, або на весь відділ, що становить 499 євро на місяць без обмежень на кількість користувачів або робочих станцій (включаючи студентів). Всі ціни + 19% ПДВ, який не застосовується, якщо ви знаходитесь за межами Німеччини і маєте ідентифікатор ПДВ.

Умови ліцензування

Ми обіцяємо ліцензування "без клопоту, без проблем". З вартістю ліцензування ви отримуєте не тільки право користуватися програмним забезпеченням, а й безкоштовні оновлення програмного забезпечення та безкоштовну підтримку. Будь-які оновлення/зниження ліцензій інтуїтивно зрозумілі і роблять те, що ви хочете. У вас було п'ять окремих ліцензій, і ви хотіли б отримати ліцензію на відділ або навпаки? Жодних проблем! Просто повідомте нас електронною поштою, і ми налаштуємо умови ліцензування в той же робочий день.

І це ще не все: наша компанія віддана відкритому коду, і коли мова йде про комерційне програмне забезпечення, є лише кілька речей, яких ми хочемо уникнути більше, ніж прив'язка до постачальника. Ви можете мати подібні побоювання, покладаючись на комерційний продукт, і ми це повністю розуміємо. Якщо ви вирішите припинити підписку на ліцензію PMSE - що ж - ви зберігаєте PMSE і можете продовжувати його використовувати. Ви втрачаєте безкоштовні оновлення та безкоштовну підтримку, але ви продовжуєте використовувати програмне забезпечення. Безкоштовно.

Якщо у вас є додаткові запитання щодо ліцензування або ви хотіли б замовити продукт, будь ласка, не соромтеся зв'язатися з sales@petamem.com.

Якщо у вас є подальші детальні технічні запитання, будь ласка, зв'яжіться з support@petamem.com

закрити