Mjukvarusvit för avancerad korpusbehandling
Generisk mjukvarusvit och mellanprogramvara för SNLP. UNIX-filosofi: ett byggkit av små enheter som kan kombineras till en ny verktygskedja. Språkoberoende. Skriven i Perl, automatiserad testsvit med hög kodtäckning, UTF-8-medveten. CLI-baserad, effektiv & parallell bearbetning. Grundlig dokumentation. Interaktivt läge tillgängligt.
En kategorisering av 250 parallella texter (från Europeiska läkemedelsmyndigheten - EMA) på 20 europeiska språk genomfördes. De resulterande graferna (träden) visar likheter i deras struktur.
Den allmänna uppgiften för textkategoriseringsapplikationen är att kategorisera olika dokument på vilket språk som helst. Stor omsorg lades vid följande funktioner: Hög modularitet. Hög prestanda. Stöd för parallell bearbetning. Källkodens modularitet gör det möjligt för användaren att ändra beteendet för alla processteg. Hela applikationen är utökningsbar genom enkla plugins. Möjliga tillämpningsområden: språkidentifiering, korpussortering, forensisk lingvistik och andra.
Kategoriseringsprocessen består av flera steg: Extrahering av text från alla givna dokument. Filtrering av oönskade dokument enligt givna kriterier (helt modulär). Beräkning av en vektor för varje dokument (helt modulär). Beräkning av avstånden (helt modulär). Hierarkisk agglomerativ klustring. Den slutliga metoden beror på distribuerad modul. Visualisera ett binärt träd som representerar relationer mellan texterna (dendrogram).
Vektor: en lista med värden som kännetecknar skillnader mellan texter.
Exempel på 4-elementsvektor:
1. frekvenser av ordförekomster
2. genomsnittligt antal ord i mening
3. genomsnittlig ordlängd
4. typ-token-förhållande
Detta kräver 4 enkla plugins, var och en beräknar en av vektorerna.
Varje vektor kan ha olika vikt i beräkningen av avståndet.
Klustringen startar efter mätning av avstånd.
e-post: sales@petamem.com
telefon: +49 911 894 6455
fax: +420 284 680 110
Nu kommer den bra delen. PMSE är en kommersiell produkt för den akademiska sektorn och PetaMem vill erbjuda dig ett "allt inkluderat, inga krångel, inga bekymmer"-paket. Vi vill också att denna mjukvarusvit ska vara prisvärd för alla. Det finns två enkla licensmodeller: Per användare per arbetsstation, vilket är 49,- EUR per månad, eller avdelningsomfattande, vilket är 499,- EUR per månad utan begränsningar på antal användare eller arbetsstationer (inklusive studenter). All prissättning är + 19% moms, som inte gäller om du är utanför Tyskland och har ett moms-ID.
Vi lovar "inga krångel, inga bekymmer"-licensiering. Med licenskostnaden får du inte bara rätten att använda mjukvaran, utan också gratis mjukvaruuppgraderingar och gratis support. Alla licensuppgraderingar/nedgraderingar är intuitiva och gör-vad-jag- menar. Hade du fem enskilda licenser och vill ha en avdelningslicens eller vice versa? Inget problem alls! Informera oss helt enkelt via e-post så justerar vi licensvillkoren samma arbetsdag.
Det blir bättre: vårt företag är engagerat i öppen källkod och när vi förlitar oss på kommersiell programvara finns det få saker vi vill undvika mer än inlåsning hos en leverantör. Du kan ha liknande bekymmer när du förlitar dig på en kommersiell produkt och vi förstår det helt. Om du skulle bestämma dig för att avsluta licensprenumerationen för PMSE - tja - du behåller PMSE och får fortsätta använda den. Du förlorar de gratis uppgraderingarna och den gratis supporten, men du fortsätter använda mjukvaran. Gratis.
Om du har ytterligare frågor om licensiering eller om du vill beställa produkten, tveka inte att kontakta sales@petamem.com.
Om du har ytterligare detaljerade tekniska frågor, vänligen kontakta support@petamem.com
stäng