Start

Diese Anleitung soll veranschaulichen, wie man mit PMSE arbeitet (und vielleicht auch, wie man anfängt). Sie führt Sie in die grundlegenden Funktionen ein, die die Kernfunktionalität von PMSE darstellen.

Datenbibliothek

Generische Software-Suite und Middleware für SNLP. UNIX-Philosophie: ein Baukasten aus kleinen Einheiten, die zu einer neuen Toolchain kombiniert werden können. Sprachagnostisch. Geschrieben in Perl, automatisierte Testsuite mit hoher Code-Abdeckung, UTF-8-fähig. CLI-basiert, effiziente & parallele Verarbeitung. Umfassende Dokumentation. Interaktiver Modus verfügbar.

Zuerst müssen wir die Arbeitsumgebung definieren. PMSE ist darauf ausgelegt, Dokumente unabhängig von der Sprache zu verarbeiten, in der sie geschrieben sind. Wir haben daher eine Strategie übernommen, wie mit Dokumenten in verschiedenen Sprachen umgegangen werden soll. Wir haben ein Wurzelverzeichnis für die Bibliothek eingerichtet, das sich befindet in:

/data/library/

Wenn das Wurzelverzeichnis der Bibliothek gesetzt ist, können Verzeichnisse für spezifische Sprachen hinzugefügt werden. Der Code ist abgeleitet von der iso-639-3 Sprachspezifikation. Das Verzeichnis für Englisch wird somit sein:

 /data/library/e/n/g/. 

Wenn Sie Ihre Bibliothek von Grund auf neu erstellen möchten, benötigen Sie ein Verzeichnis, in dem die Quelldateien platziert werden. Wir nennen solch ein Verzeichnis original, sobald Sie Ihre Dateien haben, müssen Sie sie verarbeiten (in Klartext konvertieren, Tokenisierung durchführen, N-Gramm-Extraktion usw.), um die gewünschten Informationen zu erhalten. Verarbeitete Dateien werden im Verzeichnis derived gespeichert.

Datei abrufen

Get File Diagram

Ein P_daf-Skript wurde entwickelt, um ein Framework für automatisierte Downloads bereitzustellen. P_daf liest eine INI- Datei, in der die URL des Ziels angegeben ist. Hier ist ein Beispiel einer sehr einfachen INI-Datei namens demo.ini:

     [global]
                  lastfetch = 2013-01-30 00:00:00
                  interval  = 6 months
                  name      = demo

                  [Hyperion]
                  threads = 1;
                  BASE  = http://www.gutenberg.org
                  url   = %BASE%/ebooks/5436
                  match = a\shref="(?<file>http://www.gutenberg.org/ebooks/(?<id>\d+).(?<type>kindle).noimages)"\stype
                  get   = $file        store = "$ENV{PMCORP_ROOT}/e/n/g/original/Hyperion.mobi"

Die Bedeutung der Abschnitte und Argumente in der Datei ist beschrieben im PMSE-Handbuch. Die Datei demo.ini muss gespeichert werden in dem Verzeichnis $PMSE_BIN/cfg/daf.d/. Wenn Sie die INI dort platziert haben, können Sie nun das Skript aufrufen:

 P_daf --fetch demo 

Nach dem Download sollte die Datei 5436.epub im Verzeichnis /data/library/e/n/g/original/ platziert sein.

Datei konvertieren

Gehen Sie zuerst zur Bibliothek und rufen Sie dann das P_dmf-Skript auf. Um das MOBI-Format in txt zu konvertieren, sollten Sie den calibre E-Book-Manager installieren, der von P_dmf als eines der integrierten Tools verwendet wird. Sie können das Flag PM_CONVERTOR_WARNINGS=1 verwenden, um Konverter anzuzeigen, die auf Ihrem System fehlen.

        cd /data/library/e/n/g/
        PM_CONVERTOR_WARNINGS=1 P_dmf --in /data/library/e/n/g/original/ 

Wenn alles gut gelaufen ist, sollten Sie das Verzeichnis /data/library/e/n/g/derived/ sehen. Es sollte eine Textdatei namens Hyperion.txt enthalten. Zeigen wir ihre Struktur an:

 tree derived/
             derived/
              ├── Hyperion.mobi
              │   ├── lvl.last

              │   └── Hyperion.mobi
              │   │       └── Hyperion.txt -> /data/library/e/n/g/derived/Hyperion.mobi/./lvl.1/Hyperion.mobi/Hyperion.txt
              │   └── lvl.1
              │       └── Hyperion.mobi
              │           └── Hyperion.txt

Datei bereinigen

Die txt-Datei enthält einen Header und Footer mit Gutenberg-Informationen. Wir verwenden P_rer, um die Datei zu 'bereinigen'.

        P_rer 's{.+?(Title:\sHyperion)}{$1}xms' Hyperion.txt
        P_rer 's{\*\*\*\sEND\sOF\sTHE\sPROJECT.+}{}xms' Hyperion.txt

Das Entfernen dieser Abschnitte stellt sicher, dass die extrahierten linguistischen Daten korrekt sind. (Wiederholungen von Token können die Frequenzverteilung beeinflussen.)

Tokenisierung

Tokenization

In PMSE gibt es einen einfachen vordefinierten Tokenizer und Satzsegmentierer für Englisch. Beide verwenden P_rer und haben die Form eines Makros. Makro ist hier ein Shell-Wrapper - ein Skript, das mit spezifischen Argumenten aufgerufen wird.

         MAK_tokenize Hyperion.txt eng
         MAK_1s1l -l eng -i Hyperion.txt

N-Gramm-Extraktion

n-grams diagram

Die Kernfunktionalität von PMSE ist die Generierung von N-Grammen und das Zählen verschiedener statistischer Informationen. Der folgende Code nimmt als Eingabe alle txt-Dateien im Verzeichnis derived und wird Bigramme generieren und deren MI-Score zählen.

 P_gnp --in derived/ --cluster count --ifilter '+token=\A[\w\d]+\z' --out bigrams --measure 'mi=all' --report 3 

Hinweis: Wir haben eine Standardspezifikation von N-Grammen verwendet. Der Parameter hat die Form: --ngrams 2 2 ' ' (N-Gramme der Größe 2, aus einem Fenster der Größe 2 und das Trennzeichen zwischen Token ist ein Leerzeichen).

Visualisierung & Filterung

Die Bigramme werden als internes PMSE-Objekt gespeichert. Das P_dvf-Skript ist in der Lage, diese Struktur in verschiedene Formate zu konvertieren. Außerdem kann es die Ergebnisse filtern und sortieren.

 P_dvf --in mi_1\|2 --filter '($value < 9) | ($key =~   m{\b(that|this|was|and|we|she|he|I|a|is|are|the|be)\b}xmsi)' --sort   '+val' 

PMSE Kaufen

E-Mail: sales@petamem.com
Telefon: +49 911 894 6455
Fax: +420 284 680 110

Lizenzkosten

Ob Sie es glauben oder nicht, jetzt kommt der gute Teil. PMSE ist ein kommerzielles Produkt für den akademischen Sektor und PetaMem möchte Ihnen ein "Rundum- Sorglos-Paket" anbieten. Wir möchten auch, dass diese Software- Suite für jeden erschwinglich ist. Es gibt zwei einfache Lizenzierungsmodelle: Pro Benutzer pro Arbeitsplatz, das sind 49,- EUR pro Monat oder abteilungsweit, das sind 499,- EUR pro Monat ohne Begrenzung der Anzahl von Benutzern oder Arbeitsplätzen (einschließlich Studenten). Alle Preise zzgl. 19% MwSt., die nicht gilt, wenn Sie sich außerhalb Deutschlands befinden und eine Umsatzsteuer-ID haben.

Lizenzbedingungen

Wir versprechen eine "problemlose, sorgenfreie" Lizenzierung. Mit den Lizenzkosten erhalten Sie nicht nur das Recht, die Software zu nutzen, sondern auch kostenlose Software-Upgrades und kostenlosen Support. Alle Lizenz- Upgrades/Downgrades sind intuitiv und tun-was-ich-meine. Sie hatten fünf Einzellizenzen und möchten eine Abteilungslizenz oder umgekehrt? Kein Problem! Informieren Sie uns einfach per E-Mail und wir passen die Lizenzierungsbedingungen am selben Arbeitstag an.

Es wird noch besser: Unser Unternehmen ist Open Source verpflichtet und wenn wir uns auf kommerzielle Software verlassen, gibt es nur wenige Dinge, die wir mehr vermeiden möchten als einen Vendor-Lock-in. Sie haben möglicherweise ähnliche Bedenken, wenn Sie sich auf ein kommerzielles Produkt verlassen, und wir verstehen das völlig. Sollten Sie sich entscheiden, das Lizenzabonnement von PMSE zu beenden - nun - Sie behalten PMSE und dürfen es weiter verwenden. Sie verlieren die kostenlosen Upgrades und den kostenlosen Support, aber Sie können die Software weiterhin verwenden. Kostenlos.

Sollten Sie weitere Fragen zur Lizenzierung haben oder möchten Sie das Produkt bestellen, zögern Sie bitte nicht, uns zu kontaktieren unter sales@petamem.com.

Sollten Sie weitere detaillierte technische Fragen haben, kontaktieren Sie bitte support@petamem.com

schließen