Софтуерен пакет за усъвършенствана обработка на корпуси
Универсален софтуерен пакет и междинен софтуер за SNLP. UNIX философия: строителен комплект от малки единици, които могат да бъдат комбинирани в нов набор от инструменти. Езиково независим. Написан на Perl, автоматизиран тестов пакет с високо покритие на кода, поддържа UTF-8. Базиран на CLI, ефективна и паралелна обработка. Подробна документация. Наличен е интерактивен режим.
Извършена беше категоризация на 250 паралелни текста (с източник Европейска агенция по лекарствата - EMA) на 20 европейски езика. Получените графики (дървета) показват прилики в тяхната структура.
Общата задача на приложението за категоризация на текстове е да категоризира различни документи на всеки език. Голямо внимание беше отделено на следните функции: висока модулност. Висока производителност. Поддръжка на паралелна обработка. Модулността на изходния код позволява на потребителя да променя поведението на всички процедурни стъпки. Цялото приложение може да се разширява чрез прости плъгини. Области на възможно приложение: идентификация на език, сортиране на корпуси, съдебна лингвистика и други.
Процесът на категоризация се състои от няколко стъпки: Извличане на текст от всички дадени документи. Филтриране на нежелани документи според дадените критерии (напълно модулно). Изчисляване на вектор за всеки документ (напълно модулно). Изчисляване на разстояния (напълно модулно). Йерархично агломеративно клъстериране. Крайният метод зависи от внедрения модул. Визуализация на бинарно дърво, представящо връзките между текстовете (дендрограма).
Вектор: списък от стойности, които характеризират различията между текстовете. Пример за 4-елементен вектор:
1. честоти на срещане на думи
2. среден брой думи в изречение
3. средна дължина на думите
4. съотношение тип-токен
Това ще изисква 4 прости плъгина, всеки от които изчислява един от векторите. Всеки вектор може да има различно тегло при изчисляването на разстоянието. Клъстерирането започва след измерване на разстоянията.
email: sales@petamem.com
phone: +49 911 894 6455
fax: +420 284 680 110
А сега идва хубавата част. PMSE е комерсиален продукт за академичния сектор и PetaMem иска да ви предложи пакет "всичко включено, без проблеми, без грижи". Искаме също така този софтуерен пакет да бъде достъпен за всички. Има два прости модела на лицензиране: на потребител на работна станция, което е 49,- EUR на месец, или за цял отдел, което е 499,- EUR на месец без ограничения за броя на потребителите или работните станции (включително студенти). Всички цени са + 19% ДДС, което не се прилага, ако сте извън Германия и имате номер по ДДС.
Обещаваме лицензиране "без проблеми, без грижи". С цената на лицензирането получавате не само правото да използвате софтуера, но и безплатни актуализации на софтуера и безплатна поддръжка. Всички актуализации/понижения на лиценза са интуитивни и правят това, което имате предвид. Имахте пет единични лиценза и бихте искали лиценз за отдел или обратното? Няма проблем! Просто ни уведомете по имейл и ще коригираме условията за лицензиране в същия работен ден.
И става още по-добре: нашата компания е ангажирана с отворения код и когато разчитаме на комерсиален софтуер, има само няколко неща, които искаме да избегнем повече от зависимост от доставчик. Може да имате подобни опасения, когато разчитате на комерсиален продукт, и ние напълно го разбираме. Ако решите да прекратите абонамента за лиценз на PMSE - е - запазвате PMSE и имате право да продължите да го използвате. Губите безплатните актуализации и безплатната поддръжка, но продължавате да използвате софтуера. Безплатно.
Ако имате допълнителни въпроси относно лицензирането или искате да поръчате продукта, моля не се колебайте да се свържете с sales@petamem.com.
Ако имате допълнителни подробни технически въпроси, моля свържете се с support@petamem.com
затвори