PetaMem Scripting Environment (PMSE)

Softverski paket za naprednu obradu korpusa

 

PMSE Text Diagram

icon TEHNIČKA SPECIFIKACIJA

Generički softverski paket i middleware za SNLP. UNIX filozofija: građevni komplet malih jedinica koje se mogu kombinirati u novi lanac alata. Jezično neovisan. Napisan u Perlu, automatizirani testni paket visoke pokrivenosti koda, podržava UTF-8. Temeljen na CLI-ju, učinkovita & paralelna obrada. Detaljna dokumentacija. Dostupan je interaktivni način rada.

PMSE histogram

Kategorizacija teksta

icon Studija slučaja

Provedena je kategorizacija 250 paralelnih tekstova (izvor: Europska agencija za lijekove - EMA) na 20 europskih jezika. Rezultirajući grafovi (stabla) pokazuju sličnosti u njihovoj strukturi.

 

 

PMSE Binary Tree Estonia

OPĆE INFORMACIJE

Opći zadatak aplikacije za kategorizaciju teksta je kategorizirati različite dokumente na bilo kojem jeziku. Velika pažnja bila je posvećena sljedećim značajkama: Visoka modularnost. Visoka učinkovitost. Podrška za paralelnu obradu. Modularnost izvornog koda omogućava korisniku promjenu ponašanja svih proceduralnih koraka. Cijela aplikacija je proširiva jednostavnim dodacima. Područja mogućih primjena: identifikacija jezika, sortiranje korpusa, forenzička lingvistika i druga.

TEHNIČKI OPIS

Proces kategorizacije sastoji se od nekoliko koraka: Ekstrakcija teksta iz svih danih dokumenata. Filtriranje neželjenih dokumenata prema zadanim kriterijima (potpuno modularno). Izračun vektora za bilo koji dokument (potpuno modularno). Izračun udaljenosti (potpuno modularno). Hijerarhijsko aglomerativno grupiranje. Konačna metoda ovisi o implementiranom modulu. Vizualizacija binarnog stabla koje predstavlja odnose među tekstovima (dendrogram).

VEKTORI I IZRAČUN UDALJENOSTI

Petamem Logo Vektor: lista vrijednosti koje karakteriziraju razlike među tekstovima. Primjer vektora sa 4 elementa:

1. frekvencije pojavljivanja riječi
2. prosječan broj riječi u rečenici
3. prosječna dužina riječi
4. omjer tip - token
Za ovo će biti potrebna 4 jednostavna dodatka, svaki izračunava jedan od vektora. Svaki vektor može imati različitu težinu u izračunu udaljenosti. Grupiranje počinje nakon mjerenja udaljenosti.

Kupi PMSE

email: sales@petamem.com
telefon: +49 911 894 6455
fax: +420 284 680 110

Trošak licenciranja

Sada dolazi najbolji dio. PMSE je komercijalni proizvod za akademski sektor i PetaMem vam želi ponuditi "sve uključeno, bez problema, bez briga" paket. Također želimo da ovaj softverski paket bude pristupačan svima. Postoje dva jednostavna modela licenciranja: Po korisniku po radnoj stanici, što je 49,- EUR mjesečno ili za cijeli odjel, što je 499,- EUR mjesečno bez ograničenja broja korisnika ili radnih stanica (uključujući studente). Sve cijene su + 19% PDV, koji se ne primjenjuje ako ste izvan Njemačke i imate VAT-Id.

Uvjeti licenciranja

Obećavamo licenciranje "bez problema, bez briga". S troškom licenciranja dobivate ne samo pravo korištenja softvera, već i besplatne nadogradnje softvera i besplatnu podršku. Sve nadogradnje/smanjenja licenci su intuitivne i rade što mislite. Imate pet pojedinačnih licenci i željeli biste licencu za odjel ili obrnuto? Nikakav problem! Jednostavno nas obavijestite putem e-pošte i prilagodit ćemo uvjete licenciranja istog radnog dana.

A bit će još bolje: naša tvrtka je predana open source-u i kada se oslanjamo na komercijalni softver, postoji malo stvari koje želimo izbjeći više od vezanosti na dobavljača. Možda imate slične brige kada se oslanjate na komercijalni proizvod i u potpunosti to razumijemo. Ako odlučite prekinuti licencnu pretplatu na PMSE - pa - zadržavate PMSE i dopušteno vam je nastaviti ga koristiti. Gubite besplatne nadogradnje i besplatnu podršku, ali nastavljate koristiti softver. Besplatno.

Ako imate dodatna pitanja u vezi licenciranja ili želite naručiti proizvod, molimo ne ustručavajte se kontaktirati sales@petamem.com.

Ako imate dodatna detaljna tehnička pitanja, molimo kontaktirajte support@petamem.com

zatvori