Програмний пакет для розширеної обробки корпусів
Універсальний програмний пакет і проміжне програмне забезпечення для SNLP. Філософія UNIX: набір для збірки невеликих блоків, які можна комбінувати в новий інструментарій. Незалежний від мови. Написаний на Perl, автоматизований тестовий набір з високим покриттям коду, підтримка UTF-8. На основі CLI, ефективна та паралельна обробка. Ретельна документація. Доступний інтерактивний режим.
Було виконано категоризацію 250 паралельних текстів (джерело: Європейське медичне агентство - EMA) 20 європейськими мовами. Отримані графіки (дерева) показують подібності в їх структурі.
Загальним завданням застосунку категоризації тексту є категоризація різних документів будь-якою мовою. Особлива увага була приділена наступним функціям: висока модульність. Висока продуктивність. Підтримка паралельної обробки. Модульність вихідного коду дозволяє користувачеві змінювати поведінку всіх процедурних кроків. Весь застосунок розширюється простими плагінами. Галузі можливого застосування: ідентифікація мови, сортування корпусів, судова лінгвістика та інші.
Процес категоризації складається з кількох кроків: вилучення тексту з усіх наданих документів. Фільтрування небажаних документів згідно з заданими критеріями (повністю модульний). Обчислення вектора для будь-якого документа (повністю модульний). Обчислення відстаней (повністю модульний). Ієрархічна агломеративна кластеризація. Остаточний метод залежить від розгорнутого модуля. Візуалізація бінарного дерева, що представляє відношення між текстами (дендрограма).
Вектор: список значень, які характеризують відмінності між текстами. Приклад вектора з 4 елементів:
1. частоти появи слів
2. середня кількість слів у реченні
3. середня довжина слів
4. співвідношення тип-токен
Для цього потрібні 4 прості плагіни, кожен з яких обчислює один з векторів. Кожен вектор може мати різну вагу при обчисленні відстані. Кластеризація починається після вимірювання відстаней.
email: sales@petamem.com
phone: +49 911 894 6455
fax: +420 284 680 110
А тепер найкраще. PMSE - це комерційний продукт для академічного сектору, і PetaMem хоче запропонувати вам пакет "все включено, без клопоту, без проблем". Ми також хочемо, щоб цей програмний пакет був доступним для всіх. Існують дві прості моделі ліцензування: на одного користувача на одну робочу станцію, що становить 49 євро на місяць, або на весь відділ, що становить 499 євро на місяць без обмежень на кількість користувачів або робочих станцій (включаючи студентів). Всі ціни + 19% ПДВ, який не застосовується, якщо ви знаходитесь за межами Німеччини і маєте ідентифікатор ПДВ.
Ми обіцяємо ліцензування "без клопоту, без проблем". З вартістю ліцензування ви отримуєте не тільки право користуватися програмним забезпеченням, а й безкоштовні оновлення програмного забезпечення та безкоштовну підтримку. Будь-які оновлення/зниження ліцензій інтуїтивно зрозумілі і роблять те, що ви хочете. У вас було п'ять окремих ліцензій, і ви хотіли б отримати ліцензію на відділ або навпаки? Жодних проблем! Просто повідомте нас електронною поштою, і ми налаштуємо умови ліцензування в той же робочий день.
І це ще не все: наша компанія віддана відкритому коду, і коли мова йде про комерційне програмне забезпечення, є лише кілька речей, яких ми хочемо уникнути більше, ніж прив'язка до постачальника. Ви можете мати подібні побоювання, покладаючись на комерційний продукт, і ми це повністю розуміємо. Якщо ви вирішите припинити підписку на ліцензію PMSE - що ж - ви зберігаєте PMSE і можете продовжувати його використовувати. Ви втрачаєте безкоштовні оновлення та безкоштовну підтримку, але ви продовжуєте використовувати програмне забезпечення. Безкоштовно.
Якщо у вас є додаткові запитання щодо ліцензування або ви хотіли б замовити продукт, будь ласка, не соромтеся зв'язатися з sales@petamem.com.
Якщо у вас є подальші детальні технічні запитання, будь ласка, зв'яжіться з support@petamem.com
закрити