Start

Diese Anleitung soll veranschaulichen, wie man mit PMSE arbeitet (und vielleicht auch, wie man anfängt). Sie führt Sie in die grundlegenden Funktionen ein, die die Kernfunktionalität von PMSE darstellen.

Datenbibliothek

Generische Software-Suite und Middleware für SNLP. UNIX-Philosophie: ein Baukasten aus kleinen Einheiten, die zu einer neuen Toolchain kombiniert werden können. Sprachagnostisch. Geschrieben in Perl, automatisierte Testsuite mit hoher Code-Abdeckung, UTF-8-fähig. CLI-basiert, effiziente & parallele Verarbeitung. Umfassende Dokumentation. Interaktiver Modus verfügbar.

Zuerst müssen wir die Arbeitsumgebung definieren. PMSE ist darauf ausgelegt, Dokumente unabhängig von der Sprache zu verarbeiten, in der sie geschrieben sind. Wir haben daher eine Strategie übernommen, wie mit Dokumenten in verschiedenen Sprachen umgegangen werden soll. Wir haben ein Wurzelverzeichnis für die Bibliothek eingerichtet, das sich befindet in:

/data/library/

Wenn das Wurzelverzeichnis der Bibliothek gesetzt ist, können Verzeichnisse für spezifische Sprachen hinzugefügt werden. Der Code ist abgeleitet von der iso-639-3 Sprachspezifikation. Das Verzeichnis für Englisch wird somit sein:

 /data/library/e/n/g/.

Wenn Sie Ihre Bibliothek von Grund auf neu erstellen möchten, benötigen Sie ein Verzeichnis, in dem die Quelldateien platziert werden. Wir nennen solch ein Verzeichnis original, sobald Sie Ihre Dateien haben, müssen Sie sie verarbeiten (in Klartext konvertieren, Tokenisierung durchführen, N-Gramm-Extraktion usw.), um die gewünschten Informationen zu erhalten. Verarbeitete Dateien werden im Verzeichnis derived gespeichert.

Datei abrufen

Get File Diagram

Ein P_daf-Skript wurde entwickelt, um ein Framework für automatisierte Downloads bereitzustellen. P_daf liest eine INI- Datei, in der die URL des Ziels angegeben ist. Hier ist ein Beispiel einer sehr einfachen INI-Datei namens demo.ini:

     [global]
                  lastfetch = 2013-01-30 00:00:00
                  interval  = 6 months
                  name      = demo

                  [Hyperion]
                  threads = 1;
                  BASE  = http://www.gutenberg.org
                  url   = %BASE%/ebooks/5436
                  match = a\shref="(?<file>http://www.gutenberg.org/ebooks/(?<id>\d+).(?<type>kindle).noimages)"\stype
                  get   = $file        store = "$ENV{PMCORP_ROOT}/e/n/g/original/Hyperion.mobi"

Die Bedeutung der Abschnitte und Argumente in der Datei ist beschrieben im PMSE-Handbuch. Die Datei demo.ini muss gespeichert werden in dem Verzeichnis $PMSE_BIN/cfg/daf.d/. Wenn Sie die INI dort platziert haben, können Sie nun das Skript aufrufen:

 P_daf --fetch demo

Nach dem Download sollte die Datei 5436.epub im Verzeichnis /data/library/e/n/g/original/ platziert sein.

Datei konvertieren

Gehen Sie zuerst zur Bibliothek und rufen Sie dann das P_dmf-Skript auf. Um das MOBI-Format in txt zu konvertieren, sollten Sie den calibre E-Book-Manager installieren, der von P_dmf als eines der integrierten Tools verwendet wird. Sie können das Flag PM_CONVERTOR_WARNINGS=1 verwenden, um Konverter anzuzeigen, die auf Ihrem System fehlen.

        cd /data/library/e/n/g/
        PM_CONVERTOR_WARNINGS=1 P_dmf --in /data/library/e/n/g/original/

Wenn alles gut gelaufen ist, sollten Sie das Verzeichnis /data/library/e/n/g/derived/ sehen. Es sollte eine Textdatei namens Hyperion.txt enthalten. Zeigen wir ihre Struktur an:

 tree derived/
             derived/
              ├── Hyperion.mobi
              │   ├── lvl.last

              │   └── Hyperion.mobi
              │   │       └── Hyperion.txt -> /data/library/e/n/g/derived/Hyperion.mobi/./lvl.1/Hyperion.mobi/Hyperion.txt
              │   └── lvl.1
              │       └── Hyperion.mobi
              │           └── Hyperion.txt

Datei bereinigen

Die txt-Datei enthält einen Header und Footer mit Gutenberg-Informationen. Wir verwenden P_rer, um die Datei zu 'bereinigen'.

        P_rer 's{.+?(Title:\sHyperion)}{$1}xms' Hyperion.txt
        P_rer 's{\*\*\*\sEND\sOF\sTHE\sPROJECT.+}{}xms' Hyperion.txt

Das Entfernen dieser Abschnitte stellt sicher, dass die extrahierten linguistischen Daten korrekt sind. (Wiederholungen von Token können die Frequenzverteilung beeinflussen.)

Tokenisierung

Tokenization

In PMSE gibt es einen einfachen vordefinierten Tokenizer und Satzsegmentierer für Englisch. Beide verwenden P_rer und haben die Form eines Makros. Makro ist hier ein Shell-Wrapper - ein Skript, das mit spezifischen Argumenten aufgerufen wird.

         MAK_tokenize Hyperion.txt eng
         MAK_1s1l -l eng -i Hyperion.txt

N-Gramm-Extraktion

n-grams diagram

Die Kernfunktionalität von PMSE ist die Generierung von N-Grammen und das Zählen verschiedener statistischer Informationen. Der folgende Code nimmt als Eingabe alle txt-Dateien im Verzeichnis derived und wird Bigramme generieren und deren MI-Score zählen.

 P_gnp --in derived/ --cluster count --ifilter '+token=\A[\w\d]+\z' --out bigrams --measure 'mi=all' --report 3

Hinweis: Wir haben eine Standardspezifikation von N-Grammen verwendet. Der Parameter hat die Form: --ngrams 2 2 ' ' (N-Gramme der Größe 2, aus einem Fenster der Größe 2 und das Trennzeichen zwischen Token ist ein Leerzeichen).

Visualisierung & Filterung

Die Bigramme werden als internes PMSE-Objekt gespeichert. Das P_dvf-Skript ist in der Lage, diese Struktur in verschiedene Formate zu konvertieren. Außerdem kann es die Ergebnisse filtern und sortieren.

 P_dvf --in mi_1\|2 --filter '($value < 9) | ($key =~   m{\b(that|this|was|and|we|she|he|I|a|is|are|the|be)\b}xmsi)' --sort   '+val'