Start

Ten przewodnik ma na celu zilustrowanie, jak pracować z PMSE (i może jak zacząć). Wprowadzi Cię w podstawowe funkcje, które stanowią główną funkcjonalność PMSE.

Biblioteka danych

Uniwersalny pakiet oprogramowania i middleware dla SNLP. Filozofia UNIX: zestaw budowy małych jednostek, które można łączyć w nowy łańcuch narzędzi. Niezależny od języka. Napisany w Perlu, zautomatyzowany zestaw testów o wysokim pokryciu kodu, obsługa UTF-8. Oparty na CLI, wydajne i równoległe przetwarzanie. Obszerna dokumentacja. Dostępny tryb interaktywny.

Najpierw musimy zdefiniować środowisko pracy. PMSE został zaprojektowany do przetwarzania dokumentów niezależnie od języka, w którym są napisane. Przyjęliśmy zatem strategię postępowania z dokumentami w różnych językach. Ustaliliśmy katalog główny biblioteki, który znajduje się w:

/data/library/

Kiedy katalog główny biblioteki jest ustawiony, można dodać katalogi dla określonych języków. Kod pochodzi ze specyfikacji języka iso-639-3. Katalog dla angielskiego będzie zatem:

 /data/library/e/n/g/. 

Jeśli chcesz zbudować swoją bibliotekę od podstaw, będziesz potrzebować katalogu, w którym będą znajdować się pliki źródłowe. Nazywamy taki katalog original, gdy już masz swoje pliki, musisz je przetworzyć (przekonwertować na zwykły tekst, wykonać tokenizację, ekstrakcję n-gramów itd.), aby uzyskać pożądane informacje. Przetworzone pliki będą przechowywane w katalogu derived.

Pobierz plik

Diagram pobierania pliku

Skrypt P_daf został zaprojektowany, aby zapewnić strukturę do automatycznego pobierania. P_daf odczytuje plik INI, w którym określono adres URL celu. Oto przykład bardzo prostego pliku INI o nazwie demo.ini:

     [global]
                  lastfetch = 2013-01-30 00:00:00
                  interval  = 6 months
                  name      = demo

                  [Hyperion]
                  threads = 1;
                  BASE  = http://www.gutenberg.org
                  url   = %BASE%/ebooks/5436
                  match = a\shref="(?http://www.gutenberg.org/ebooks/(?\d+).(?kindle).noimages)"\stype
                  get   = $file        store = "$ENV{PMCORP_ROOT}/e/n/g/original/Hyperion.mobi"

Znaczenie sekcji i argumentów w pliku jest opisane w podręczniku PMSE. Plik demo.ini musi być przechowywany w katalogu $PMSE_BIN/cfg/daf.d/. Jeśli umieściłeś INI tam, możesz teraz wywołać skrypt:

 P_daf --fetch demo 

Po pobraniu plik 5436.epub powinien znajdować się w katalogu /data/library/e/n/g/original/.

Konwertuj plik

Najpierw przejdź do biblioteki, a następnie wywołaj skrypt P_dmf. Aby przekonwertować format MOBI na txt, powinieneś zainstalować menedżer e-booków calibre, który jest używany przez P_dmf jako jedno ze zintegrowanych narzędzi. Możesz użyć flagi PM_CONVERTOR_WARNINGS=1, aby wyświetlić konwertery, których brakuje w Twoim systemie.

        cd /data/library/e/n/g/
        PM_CONVERTOR_WARNINGS=1 P_dmf --in /data/library/e/n/g/original/ 

Jeśli wszystko poszło dobrze, powinieneś zobaczyć katalog /data/library/e/n/g/derived/. Powinien zawierać plik tekstowy o nazwie Hyperion.txt. Wyświetlmy jego strukturę:

 tree derived/
             derived/
              ├── Hyperion.mobi
              │   ├── lvl.last

              │   └── Hyperion.mobi
              │   │       └── Hyperion.txt -> /data/library/e/n/g/derived/Hyperion.mobi/./lvl.1/Hyperion.mobi/Hyperion.txt
              │   └── lvl.1
              │       └── Hyperion.mobi
              │           └── Hyperion.txt

Wyczyść plik

Plik txt zawiera nagłówek i stopkę z informacjami Gutenberga. Użyjemy P_rer, aby 'wyczyścić' plik.

        P_rer 's{.+?(Title:\sHyperion)}{$1}xms' Hyperion.txt
        P_rer 's{\*\*\*\sEND\sOF\sTHE\sPROJECT.+}{}xms' Hyperion.txt

Usunięcie tych sekcji zapewni, że wyodrębnione dane językowe będą poprawne. (Powtarzanie tokenów może wpłynąć na rozkład częstotliwości.)

Tokenizacja

Tokenizacja

W PMSE istnieje prosty predefiniowany tokenizer i segmentator zdań dla języka angielskiego. Oba używają P_rer i mają formę makra. Makro to tutaj wrapper powłoki - skrypt, który jest wywoływany z określonymi argumentami.

         MAK_tokenize Hyperion.txt eng
         MAK_1s1l -l eng -i Hyperion.txt

Ekstrakcja N-gramów

Diagram n-gramów

Podstawową funkcjonalnością PMSE jest generowanie n-gramów i liczenie różnych informacji statystycznych. Poniższy kod pobierze jako dane wejściowe wszystkie pliki txt w katalogu derived i wygeneruje bigramy oraz obliczy ich wynik MI.

 P_gnp --in derived/ --cluster count --ifilter '+token=\A[\w\d]+\z' --out bigrams --measure 'mi=all' --report 3 

Uwaga: Użyliśmy domyślnej specyfikacji n-gramów. Parametr ma postać: --ngrams 2 2 ' ' (n-gramy o rozmiarze 2, z okna o rozmiarze 2, a separatorem między tokenami jest biała spacja).

Wizualizacja i filtrowanie

Bigramy są przechowywane jako wewnętrzny obiekt PMSE. Skrypt P_dvf jest w stanie przekonwertować tę strukturę na różne formaty. Może również filtrować i sortować wyniki.

 P_dvf --in mi_1\|2 --filter '($value < 9) | ($key =~   m{\b(that|this|was|and|we|she|he|I|a|is|are|the|be)\b}xmsi)' --sort   '+val' 

Kup PMSE

email: sales@petamem.com
telefon: +49 911 894 6455
faks: +420 284 680 110

Koszt licencji

Wierz lub nie, teraz najlepsza część. PMSE to produkt komercyjny dla sektora akademickiego, a PetaMem chce zaoferować pakiet "wszystko włączone, bez kłopotów, bez zmartwień". Chcemy również, aby ten pakiet oprogramowania był przystępny cenowo dla wszystkich. Istnieją dwa proste modele licencjonowania: na użytkownika na stację roboczą, czyli 49,- EUR miesięcznie, lub dla całego działu, czyli 499,- EUR miesięcznie bez ograniczeń liczby użytkowników lub stacji roboczych (w tym studentów). Wszystkie ceny są powiększone o 19% VAT, który nie ma zastosowania, jeśli jesteś spoza Niemiec i posiadasz numer VAT.

Warunki licencjonowania

Obiecujemy licencjonowanie "bez kłopotów, bez zmartwień". Wraz z kosztem licencji otrzymujesz nie tylko prawo do korzystania z oprogramowania, ale także bezpłatne aktualizacje oprogramowania i bezpłatne wsparcie. Wszelkie zmiany/obniżki licencji są intuicyjne i działają zgodnie z intencją. Masz pięć pojedynczych licencji i chcesz licencję działową lub odwrotnie? Nie ma problemu! Po prostu poinformuj nas e-mailem, a dostosujemy warunki licencjonowania tego samego dnia roboczego.

Ale to nie wszystko: nasza firma jest zaangażowana w open source, a gdy polegamy na oprogramowaniu komercyjnym, jest niewiele rzeczy, których chcemy uniknąć bardziej niż uzależnienia od dostawcy. Możesz mieć podobne obawy, polegając na produkcie komercyjnym i w pełni to rozumiemy. Jeśli zdecydujesz się zakończyć subskrypcję licencji PMSE - cóż - zachowujesz PMSE i możesz nadal z niego korzystać. Tracisz bezpłatne aktualizacje i bezpłatne wsparcie, ale nadal możesz korzystać z oprogramowania. Za darmo.

Jeśli masz jakiekolwiek dalsze pytania dotyczące licencjonowania lub chciałbyś zamówić produkt, nie wahaj się skontaktować z sales@petamem.com.

Jeśli masz dalsze szczegółowe pytania techniczne, skontaktuj się z support@petamem.com

zamknij