PetaMem Scripting Environment (PMSE)

Programvarepakke for avansert korpusbehandling

 

PMSE Text Diagram

icon TEKNISK SPESIFIKASJON

Generisk programvarepakke og mellomvare for SNLP. UNIX-filosofi: et byggesett av små enheter som kan kombineres til en ny verktøykjede. Språkagnostisk. Skrevet i Perl, automatisert testsuite med høy kodedekning, UTF-8-bevisst. CLI-basert, effektiv og parallell prosessering. Grundig dokumentasjon. Interaktiv modus tilgjengelig.

PMSE Hisotgram

Tekstkategorisering

icon Casestudie

En kategorisering av 250 parallelle tekster (kildeført i European Medical Agency - EMA) på 20 europeiske språk ble utført. De resulterende grafene (trær) viser likheter i strukturen deres.

 

 

PMSE Binary Tree Estonia

GENERELL INFORMASJON

Den generelle oppgaven for tekstkategoriseringsappen er å kategorisere forskjellige dokumenter på ethvert språk. Det ble lagt stor vekt på følgende funksjoner: Høy modularitet. Høy ytelse. Støtte for parallell prosessering. Modulariteten i kildekoden lar brukeren endre oppførselen til alle prosedyretrinn. Hele applikasjonen er utvidbar med enkle plugins. Mulige anvendelsesområder: språkidentifikasjon, korpussortering, rettsmedisinsk lingvistikk og andre.

TEKNISK BESKRIVELSE

Kategoriseringsprosessen består av flere trinn: Utvinning av tekst fra alle gitte dokumenter. Filtrering av uønskede dokumenter i henhold til gitte kriterier (helt modulært). Beregning av en vektor for ethvert dokument (helt modulært). Beregning av avstandene (helt modulært). Hierarkisk agglomerativ klustering. Den endelige metoden avhenger av deployert modul. Visualiser et binært tre som representerer relasjoner mellom tekstene (dendrogram).

VEKTORER & AVSTANDSBEREGNING

Petamem
                 LogoVektor: en liste med verdier som karakteriserer forskjeller mellom tekster. Eksempel på 4-elementers vektor:

1. frekvenser av ordforekomster
2. gjennomsnittlig ordantall i setning
3. gjennomsnittlig ordlengde
4. type - token-forhold
Dette vil kreve 4 enkle plugins, hver beregner én av vektorene. Hver vektor kan ha forskjellig vekt i beregningen av avstanden. Klustringen starter etter måling av avstander.

Kjøp PMSE

e-post: sales@petamem.com
telefon: +49 911 894 6455
faks: +420 284 680 110

Lisenskostnad

Nå kommer den gode delen. PMSE er et kommersielt produkt for den akademiske sektoren, og PetaMem ønsker å tilby deg en "alt inkludert, ingen problemer, ingen bekymringer"-pakke. Vi ønsker også at denne programvarepakken skal være overkommelig for alle. Det er to enkle lisensmodeller: Per bruker per arbeidsstasjon, som er 49,- EUR per måned, eller avdelingsdekkende, som er 499,- EUR per måned uten begrensninger på antall brukere eller arbeidsstasjoner (inkludert studenter). Alle priser er + 19% MVA, som ikke gjelder hvis du er utenfor Tyskland og har et MVA-Id.

Lisensvilkår

Vi lover "ingen problemer, ingen bekymringer"-lisensiering. Med lisenskostnaden får du ikke bare rett til å bruke programvaren, men også gratis programvareoppgraderinger og gratis støtte. Eventuelle lisensoppgraderinger/nedgraderinger er intuitive og gjør-hva-jeg-mener. Du hadde fem enkeltlisenser og ønsker en avdelingslisens eller omvendt? Ikke noe problem i det hele tatt! Bare informer oss via e-post, så justerer vi lisensvilkårene samme arbeidsdag.

Det blir bedre: vårt selskap er forpliktet til åpen kildekode, og når vi er avhengige av kommersiell programvare, er det få ting vi ønsker å unngå mer enn en leverandør-lock-in. Du kan ha lignende bekymringer når du stoler på et kommersielt produkt, og vi forstår det fullt ut. Skulle du bestemme deg for å avslutte lisensabonnementet på PMSE - vel - du beholder PMSE og har lov til å fortsette å bruke det. Du mister de gratis oppgraderingene og gratis støtten, men du fortsetter å bruke programvaren. Gratis.

Skulle du ha ytterligere spørsmål angående lisensiering eller ønsker å bestille produktet, vennligst ikke nøl med å kontakte sales@petamem.com.

Skulle du ha ytterligere detaljerte tekniske spørsmål, vennligst kontakt support@petamem.com

lukk