PetaMem Scripting Environment (PMSE)

Softvérová sada pre pokročilé spracovanie korpusov

 

PMSE Text Diagram

icon TECHNICKÁ ŠPECIFIKÁCIA

Generická softvérová sada a middleware pre SNLP. UNIX filozofia: stavebnica malých jednotiek, ktoré môžu byť kombinované do nového reťazca nástrojov. Jazykovo agnostická. Napísaná v jazyku Perl, automatizovaná testovacia sada s vysokým pokrytím kódu, podporuje UTF-8. Založená na CLI, efektívne a paralelné zpracovanie. Dôkladná dokumentácia. K dispozícii interaktívny režim.

PMSE Hisotgram

Kategorizácia textu

icon Prípadová štúdia

Bola vykonaná kategorizácia 250 paralelných textov (zo zdroja Európskej agentúry pre lieky - EMA) v 20 európskych jazykoch. Výsledné grafy (stromy) ukazujú podobnosti v ich štruktúre.

 

 

PMSE Binary Tree Estonia

VŠEOBECNÉ INFORMÁCIE

Všeobecnou úlohou aplikácie na kategorizáciu textov je kategorizovať rôzne dokumenty v akomkoľvek jazyku. Veľká pozornosť bola venovaná nasledujúcim vlastnostiam: Vysoká modularita. Vysoký výkon. Podpora paralelného spracovania. Modularita zdrojového kódu umožňuje používateľovi zmeniť správanie všetkých procedurálnych krokov. Celá aplikácia je rozšíriteľná pomocou jednoduchých pluginov. Oblasti možného použitia: identifikácia jazyka, triedenie korpusov, forenzná lingvistika a iné.

TECHNICKÝ POPIS

Proces kategorizácie pozostáva z niekoľkých krokov: Extrakcia textu zo všetkých daných dokumentov. Filtrovanie nežiaducich dokumentov podľa daných kritérií (úplne modulárne). Výpočet vektora pre akýkoľvek dokument (úplne modulárne). Výpočet vzdialeností (úplne modulárne). Hierarchické aglomeratívne zhlukovovanie. Konečná metóda závisí od nasadeného modulu. Vizualizácia binárneho stromu reprezentujúceho vzťahy medzi textami (dendrogram).

VEKTORY A VÝPOČET VZDIALENOSTI

Petamem
                 LogoVektor: zoznam hodnôt, ktoré charakterizujú rozdiely medzi textami. Príklad 4-prvkového vektora:

1. frekvencie výskytov slov
2. priemerný počet slov vo vete
3. priemerná dĺžka slov
4. pomer typ - token
Toto bude vyžadovať 4 jednoduché pluginy, každý vypočítava jeden z vektorov. Každý vektor môže mať rôznu váhu vo výpočte vzdialenosti. Zhlukovanie sa začína po meraní vzdialeností.

Kúpiť PMSE

email: sales@petamem.com
phone: +49 911 894 6455
fax: +420 284 680 110

Licenčné náklady

Teraz prichádza tá dobrá časť. PMSE je komerčný produkt pre akademický sektor a PetaMem vám chce ponúknuť balík "všetko v cene, žiadne problémy, žiadne starosti". Chceme tiež, aby bol tento softvérový balík cenovo dostupný pre všetkých. Existujú dva jednoduché licenčné modely: Na používateľa na pracovnú stanicu, čo je 49,- EUR mesačne alebo na celé oddelenie, čo je 499,- EUR mesačne bez obmedzenia počtu používateľov alebo pracovných staníc (vrátane študentov). Všetky ceny sú + 19% DPH, ktorá sa neuplatňuje, ak ste mimo Nemecka a máte DIČ.

Licenčné podmienky

Sľubujeme licencovanie "žiadne problémy, žiadne starosti". S licenčnými nákladmi získate nielen právo používať softvér, ale aj bezplatné aktualizácie softvéru a bezplatnú podporu. Akékoľvek zvýšenie/zníženie licencie sú intuitívne a robia presne to, čo chcete. Mali ste päť samostatných licencií a chceli by ste licenciu pre oddelenie alebo naopak? Žiadny problém! Jednoducho nás informujte e-mailom a my upravíme licenčné podmienky v ten istý pracovný deň.

A to nie je všetko: naša spoločnosť sa zaviazala k open source a pri spoliehaniu sa na komerčný softvér je len málo vecí, ktorým sa chceme vyhnúť viac ako uzamknutiu dodávateľa. Možno máte podobné obavy pri spoliehnutí sa na komerčný produkt a plne to chápeme. Ak sa rozhodnete ukončiť licenčné predplatné PMSE - no - ponecháte si PMSE a môžete ho naďalej používať. Stratíte bezplatné aktualizácie a bezplatnú podporu, ale softvér si ponecháte. Zadarmo.

Ak máte ďalšie otázky týkajúce sa licencovania alebo ak by ste si chceli objednať produkt, neváhajte kontaktovať sales@petamem.com.

Ak máte ďalšie podrobné technické otázky, kontaktujte prosím support@petamem.com

zavrieť