Suită software pentru procesarea avansată a corpusurilor
Suită software generică și middleware pentru SNLP. Filosofia UNIX: un set de construcție de unități mici care pot fi combinate într-un nou lanț de instrumente. Independent de limbă. Scris în Perl, test suite automatizat cu acoperire de cod ridicată, compatibil UTF-8. Bazat pe CLI, procesare eficientă și paralelă. Documentație completă. Mod interactiv disponibil.
A fost efectuată o categorizare a 250 de texte paralele (surse din Agenția Medicală Europeană - EMA) în 20 de limbi europene. Graficele rezultate (arbori) arată asemănări în structura lor.
Sarcina generală pentru aplicația de Categorizare a Textelor este de a categoriza diverse documente în orice limbă. S-a avut grijă deosebită de următoarele caracteristici: Modularitate ridicată. Performanță ridicată. Suport pentru procesare paralelă. Modularitatea codului sursă permite utilizatorului să schimbe comportamentul tuturor etapelor procedurale. Întreaga aplicație este extensibilă prin simple plugin-uri. Domenii de posibilă aplicare: identificarea limbii, sortarea corpusurilor, lingvistica forensică și altele.
Procesul de categorizare constă din mai multe etape: Extragerea textului din toate documentele date. Filtrarea documentelor nedorite conform criteriilor date (complet modular). Calculul unui vector pentru orice document (complet modular). Calculul distanțelor (complet modular). Clustering aglomerativ ierarhic. Metoda finală depinde de modulul implementat. Vizualizarea unui arbore binar reprezentând relațiile dintre texte (dendrogramă).
Vector: o listă de valori care caracterizează
diferențele dintre texte. Exemplu de vector cu 4 elemente:
1. frecvențele apariției cuvintelor
2. numărul mediu de cuvinte într-o propoziție
3. lungimea medie a cuvintelor
4. raportul tip - token
Acest lucru va necesita 4 plugin-uri simple, fiecare calculând unul dintre
vectori. Fiecare vector poate avea o greutate diferită în
calculul distanței. Clusteringul începe după
măsurarea distanțelor.
email: sales@petamem.com
telefon: +49 911 894 6455
fax: +420 284 680 110
Acum vine partea bună. PMSE este un produs comercial pentru sectorul academic și PetaMem dorește să vă ofere un pachet „totul inclus, fără probleme, fără griji". De asemenea, dorim ca această suită software să fie accesibilă pentru toată lumea. Există două modele simple de licențiere: Per utilizator per stație de lucru, care este 49,- EUR pe lună sau la nivel de departament, care este 499,- EUR pe lună fără limite de număr de utilizatori sau stații de lucru (inclusiv studenți). Toate prețurile sunt + 19% TVA, care nu se aplică dacă sunteți în afara Germaniei și aveți un TVA-Id.
Promitem licențiere „fără probleme, fără griji". Cu costul licenței obțineți nu doar dreptul de a utiliza software-ul, ci și actualizări gratuite ale software-ului și asistență gratuită. Orice actualizări/retrogradări de licență sunt intuitive și fac-ce-vreau-eu. Ați avut cinci licențe individuale și doriți o licență de departament sau viceversa? Nicio problemă! Pur și simplu informați-ne prin email și vom ajusta condițiile de licențiere în aceeași zi lucrătoare.
Devine și mai bine: compania noastră este dedicată open source și când ne bazăm pe software comercial, există puține lucruri pe care dorim să le evităm mai mult decât o blocare la furnizor. S-ar putea să aveți preocupări similare când vă bazați pe un produs comercial și înțelegem pe deplin acest lucru. Dacă decideți să încheiați abonamentul de licențiere pentru PMSE - ei bine - păstrați PMSE și aveți voie să continuați să-l utilizați. Pierdeți actualizările gratuite și asistența gratuită, dar continuați să folosiți software-ul. Gratuit.
Dacă aveți întrebări suplimentare referitoare la licențiere sau doriți să comandați produsul, vă rugăm să nu ezitați să contactați sales@petamem.com.
Dacă aveți întrebări tehnice detaliate suplimentare, vă rugăm să contactați support@petamem.com
închide