Pakiet oprogramowania do zaawansowanego przetwarzania korpusów
Uniwersalny pakiet oprogramowania i middleware dla SNLP. Filozofia UNIX: zestaw budowy małych jednostek, które można łączyć w nowy łańcuch narzędzi. Niezależny od języka. Napisany w Perlu, zautomatyzowany zestaw testów o wysokim pokryciu kodu, obsługa UTF-8. Oparty na CLI, wydajne i równoległe przetwarzanie. Obszerna dokumentacja. Dostępny tryb interaktywny.
Przeprowadzono kategoryzację 250 tekstów równoległych (pochodzących z Europejskiej Agencji Leków - EMA) w 20 językach europejskich. Powstałe wykresy (drzewa) pokazują podobieństwa w ich strukturze.
Ogólnym zadaniem aplikacji do kategoryzacji tekstu jest kategoryzowanie różnych dokumentów w dowolnym języku. Szczególną uwagę zwrócono na następujące cechy: Wysoka modularność. Wysoka wydajność. Obsługa przetwarzania równoległego. Modularność kodu źródłowego pozwala użytkownikowi na zmianę zachowania wszystkich kroków proceduralnych. Cała aplikacja jest rozszerzalna za pomocą prostych wtyczek. Obszary możliwego zastosowania: identyfikacja języka, sortowanie korpusów, lingwistyka sądowa i inne.
Proces kategoryzacji składa się z kilku etapów: Ekstrakcja tekstu ze wszystkich podanych dokumentów. Filtrowanie niechcianych dokumentów według podanych kryteriów (całkowicie modułowe). Obliczanie wektora dla każdego dokumentu (całkowicie modułowe). Obliczanie odległości (całkowicie modułowe). Hierarchiczne grupowanie aglomeracyjne. Ostateczna metoda zależy od wdrożonego modułu. Wizualizacja drzewa binarnego przedstawiającego relacje między tekstami (dendrogram).
Wektor: lista wartości charakteryzujących różnice między tekstami. Przykład 4-elementowego wektora:
1. częstotliwości wystąpień słów
2. średnia liczba słów w zdaniu
3. średnia długość słów
4. stosunek typ-token
Będzie to wymagać 4 prostych wtyczek, z których każda oblicza jeden z wektorów. Każdy wektor może mieć różną wagę w obliczaniu odległości. Grupowanie rozpoczyna się po zmierzeniu odległości.
email: sales@petamem.com
telefon: +49 911 894 6455
faks: +420 284 680 110
Teraz najlepsza część. PMSE to produkt komercyjny dla sektora akademickiego, a PetaMem chce zaoferować pakiet "wszystko włączone, bez kłopotów, bez zmartwień". Chcemy również, aby ten pakiet oprogramowania był przystępny cenowo dla wszystkich. Istnieją dwa proste modele licencjonowania: na użytkownika na stację roboczą, czyli 49,- EUR miesięcznie, lub dla całego działu, czyli 499,- EUR miesięcznie bez ograniczeń liczby użytkowników lub stacji roboczych (w tym studentów). Wszystkie ceny są powiększone o 19% VAT, który nie ma zastosowania, jeśli jesteś spoza Niemiec i posiadasz numer VAT.
Obiecujemy licencjonowanie "bez kłopotów, bez zmartwień". Wraz z kosztem licencji otrzymujesz nie tylko prawo do korzystania z oprogramowania, ale także bezpłatne aktualizacje oprogramowania i bezpłatne wsparcie. Wszelkie zmiany/obniżki licencji są intuicyjne i działają zgodnie z intencją. Masz pięć pojedynczych licencji i chcesz licencję działową lub odwrotnie? Nie ma problemu! Po prostu poinformuj nas e-mailem, a dostosujemy warunki licencjonowania tego samego dnia roboczego.
Ale to nie wszystko: nasza firma jest zaangażowana w open source, a gdy polegamy na oprogramowaniu komercyjnym, jest niewiele rzeczy, których chcemy uniknąć bardziej niż uzależnienia od dostawcy. Możesz mieć podobne obawy, polegając na produkcie komercyjnym i w pełni to rozumiemy. Jeśli zdecydujesz się zakończyć subskrypcję licencji PMSE - cóż - zachowujesz PMSE i możesz nadal z niego korzystać. Tracisz bezpłatne aktualizacje i bezpłatne wsparcie, ale nadal możesz korzystać z oprogramowania. Za darmo.
Jeśli masz jakiekolwiek dalsze pytania dotyczące licencjonowania lub chciałbyś zamówić produkt, nie wahaj się skontaktować z sales@petamem.com.
Jeśli masz dalsze szczegółowe pytania techniczne, skontaktuj się z support@petamem.com
zamknij