Tekstcategorisatie

Casestudy

Een categorisatie van 250 parallelle teksten (afkomstig van het Europees Geneesmiddelenbureau - EMA) in 20 Europese talen werd uitgevoerd. De resulterende grafieken (bomen) tonen overeenkomsten in hun structuur.

ALGEMENE INFORMATIE

De algemene taak voor de Tekstcategorisatie-app is het categoriseren van verschillende documenten in elke taal. Grote zorg werd besteed aan de volgende kenmerken: Hoge modulariteit. Hoge prestaties. Ondersteuning voor parallelle verwerking. De modulariteit van de broncode stelt de gebruiker in staat om het gedrag van alle procedurele stappen te wijzigen. De hele applicatie is uitbreidbaar door middel van eenvoudige plug-ins. Mogelijke toepassingsgebieden: taalidentificatie, corpussortering, forensische taalkunde en andere.

TECHNISCHE BESCHRIJVING

Het categorisatieproces bestaat uit verschillende stappen: Extractie van tekst uit alle gegeven documenten. Filteren van ongewenste documenten volgens gegeven criteria (volledig modulair). Berekening van een vector voor elk document (volledig modulair). Berekening van de afstanden (volledig modulair). Hiërarchische agglomeratieve clustering. De uiteindelijke methode hangt af van de ingezette module. Visualiseer een binaire boom die relaties tussen de teksten weergeeft (dendrogram).

VECTOREN & AFSTANDSBEREKENING

Vector: een lijst van waarden die verschillen tussen teksten kenmerken. Voorbeeld van een 4-elementen vector:

1. frequenties van woordvoorkomens
2. gemiddeld aantal woorden per zin
3. gemiddelde woordlengte
4. type-token ratio
Dit vereist 4 eenvoudige plug-ins, elk voor de berekening van één van de vectoren. Elke vector kan een verschillend gewicht hebben in de berekening van de afstand. De clustering begint na het meten van de afstanden.

Koop PMSE

e-mail: sales@petamem.com
telefoon: +49 911 894 6455
fax: +420 284 680 110

Licentiekosten

Nu komt het goede deel. PMSE is een commercieel product voor de academische sector en PetaMem wil u een "alles inbegrepen, zonder gedoe, zonder zorgen" pakket aanbieden. We willen ook dat dit softwarepakket voor iedereen betaalbaar is. Er zijn twee eenvoudige licentiemodellen: Per gebruiker per werkstation, namelijk 49,- EUR per maand of voor de hele afdeling, namelijk 499,- EUR per maand zonder limiet op het aantal gebruikers of werkstations (inclusief studenten). Alle prijzen zijn + 19% BTW, wat niet van toepassing is als u zich buiten Duitsland bevindt en een BTW-nummer heeft.

Licentievoorwaarden

We beloven "geen gedoe, geen zorgen" licenties. Met de licentiekosten verkrijgt u niet alleen het recht om de software te gebruiken, maar ook gratis software-upgrades en gratis ondersteuning. Eventuele licentie-upgrades/downgrades zijn intuïtief en doen-wat-ik-bedoel. Had u vijf enkele licenties en wilt u een afdelingslicentie of vice versa? Geen enkel probleem! Informeer ons gewoon via e-mail en wij passen de licentievoorwaarden dezelfde werkdag aan.

Het wordt nog beter: ons bedrijf is toegewijd aan open source en wanneer we vertrouwen op commerciële software, zijn er maar weinig dingen die we meer willen vermijden dan een vendor lock-in. U heeft mogelijk vergelijkbare zorgen wanneer u vertrouwt op een commercieel product en dat begrijpen we volledig. Mocht u besluiten om het licentieabonnement van PMSE te beëindigen - nou - dan houdt u PMSE en mag u het blijven gebruiken. U verliest de gratis upgrades en gratis ondersteuning, maar u blijft de software gebruiken. Gratis.

Mocht u nog verdere vragen hebben over licenties of wilt u het product bestellen, aarzel dan niet om contact op te nemen met sales@petamem.com.

Mocht u nog verdere gedetailleerde technische vragen hebben, neem dan contact op met support@petamem.com

sluiten

PetaMem Scripting Environment (PMSE)

TECHNISCHE SPECIFICATIE