Inizio

Questa procedura guidata dovrebbe illustrare come lavorare con PMSE (e forse come iniziare). Vi introdurrà alle funzioni di base che rappresentano la funzionalità principale di PMSE.

Libreria Dati

Suite software generica e middleware per SNLP. Filosofia UNIX: un kit di piccole unità che possono essere combinate in una nuova toolchain. Indipendente dal linguaggio. Scritto in Perl, suite di test automatizzata con alta copertura del codice, supporto UTF-8. Basato su CLI, elaborazione efficiente e parallela. Documentazione completa. Modalità interattiva disponibile.

Dobbiamo prima definire l'ambiente di lavoro. PMSE è progettato per elaborare documenti indipendentemente dalla lingua in cui sono scritti. Abbiamo quindi adottato una strategia su come gestire documenti in varie lingue. Abbiamo stabilito una radice per la libreria che si trova in:

/data/library/

Una volta impostata la radice della libreria, possono essere aggiunte directory per lingue specifiche. Il codice è derivato dalla specifica linguistica iso-639-3. La directory per l'inglese sarà quindi:

 /data/library/e/n/g/. 

Se volete costruire la vostra libreria da zero, avrete bisogno di una directory in cui verranno posizionati i file sorgente. Chiamiamo tale directory original, una volta che avete i vostri file, dovete elaborarli (convertire in testo semplice, effettuare la tokenizzazione, l'estrazione di n-grammi e così via) per ottenere le informazioni desiderate. I file elaborati saranno archiviati nella directory derived.

Ottenere il file

Diagramma Ottenimento File

Uno script P_daf è stato progettato per fornire un framework per il download automatizzato. P_daf legge un file INI, in cui è specificato l'URL di destinazione. Ecco un esempio di file INI molto semplice chiamato demo.ini:

     [global]
                  lastfetch = 2013-01-30 00:00:00
                  interval  = 6 months
                  name      = demo

                  [Hyperion]
                  threads = 1;
                  BASE  = http://www.gutenberg.org
                  url   = %BASE%/ebooks/5436
                  match = a\shref="(?http://www.gutenberg.org/ebooks/(?\d+).(?kindle).noimages)"\stype
                  get   = $file        store = "$ENV{PMCORP_ROOT}/e/n/g/original/Hyperion.mobi"

Il significato delle sezioni e degli argomenti nel file è descritto nel manuale di PMSE. Il file demo.ini deve essere archiviato nella directory $PMSE_BIN/cfg/daf.d/. Se avete posizionato l'INI lì, ora potete chiamare lo script:

 P_daf --fetch demo 

Dopo il download, il file 5436.epub dovrebbe essere posizionato nella directory /data/library/e/n/g/original/.

Convertire il file

Prima, andate nella libreria e poi chiamate lo script P_dmf. Per convertire il formato MOBI in txt, dovreste installare il gestore di e-book calibre, che è utilizzato da P_dmf come uno degli strumenti integrati. Potete usare il flag PM_CONVERTOR_WARNINGS=1 per visualizzare i convertitori che mancano sul vostro sistema.

        cd /data/library/e/n/g/
        PM_CONVERTOR_WARNINGS=1 P_dmf --in /data/library/e/n/g/original/ 

Se tutto è andato bene, dovreste vedere la directory /data/library/e/n/g/derived/. Dovrebbe contenere un file di testo chiamato Hyperion.txt. Mostriamo la sua struttura:

 tree derived/
             derived/
              ├── Hyperion.mobi
              │   ├── lvl.last

              │   └── Hyperion.mobi
              │   │       └── Hyperion.txt -> /data/library/e/n/g/derived/Hyperion.mobi/./lvl.1/Hyperion.mobi/Hyperion.txt
              │   └── lvl.1
              │       └── Hyperion.mobi
              │           └── Hyperion.txt

Pulire il file

Il file txt contiene un'intestazione e un piè di pagina con le informazioni di Gutenberg. Useremo P_rer per 'pulire' il file.

        P_rer 's{.+?(Title:\sHyperion)}{$1}xms' Hyperion.txt
        P_rer 's{\*\*\*\sEND\sOF\sTHE\sPROJECT.+}{}xms' Hyperion.txt

La rimozione di queste sezioni garantirà che i dati linguistici estratti siano corretti. (La ripetizione di token può influenzare la distribuzione delle frequenze.)

Tokenizzazione

Tokenizzazione

In PMSE esiste un tokenizer e un segmentatore di frasi predefinito semplice per l'inglese. Entrambi utilizzano P_rer e hanno la forma di una macro. La macro qui è un wrapper di shell - uno script che viene chiamato con argomenti specifici.

         MAK_tokenize Hyperion.txt eng
         MAK_1s1l -l eng -i Hyperion.txt

Estrazione N-grammi

diagramma n-grammi

La funzionalità principale di PMSE è la generazione di n-grammi e il conteggio di varie informazioni statistiche. Il seguente codice prenderà come input tutti i file txt nella directory derived e genererà bigrammi e conterà il loro punteggio MI.

 P_gnp --in derived/ --cluster count --ifilter '+token=\A[\w\d]+\z' --out bigrams --measure 'mi=all' --report 3 

Nota: Abbiamo usato una specifica predefinita di n-grammi. Il parametro ha la seguente forma: --ngrams 2 2 ' ' (n-grammi di dimensione 2, da una finestra di dimensione 2 e il separatore tra i token è uno spazio bianco).

Visualizzazione e Filtraggio

I bigrammi sono archiviati come oggetto PMSE interno. Lo script P_dvf è in grado di convertire questa struttura in vari formati. Inoltre, è in grado di filtrare e ordinare i risultati.

 P_dvf --in mi_1\|2 --filter '($value < 9) | ($key =~   m{\b(that|this|was|and|we|she|he|I|a|is|are|the|be)\b}xmsi)' --sort   '+val' 

Acquista PMSE

email: sales@petamem.com
telefono: +49 911 894 6455
fax: +420 284 680 110

Costo della Licenza

Che ci crediate o no, ora viene la parte migliore. PMSE è un prodotto commerciale per il settore accademico e PetaMem vuole offrirvi un pacchetto "tutto incluso, senza problemi, senza preoccupazioni". Vogliamo anche che questa suite software sia accessibile a tutti. Ci sono due semplici modelli di licenza: Per utente per workstation, che costa 49,- EUR al mese o per tutto il dipartimento, che costa 499,- EUR al mese senza limiti sul numero di utenti o workstation (inclusi gli studenti). Tutti i prezzi sono + 19% IVA, che non si applica se siete fuori dalla Germania e avete un VAT-Id.

Condizioni di Licenza

Promettiamo una licenza "senza problemi, senza preoccupazioni". Con il costo della licenza ottenete non solo il diritto di utilizzare il software, ma anche aggiornamenti software gratuiti e supporto gratuito. Eventuali aggiornamenti/downgrade della licenza sono intuitivi e fanno-quello-che-intendo. Avevate cinque licenze singole e vorreste una licenza per il dipartimento o viceversa? Nessun problema! Basta informarci via email e adegueremo le condizioni di licenza lo stesso giorno lavorativo.

Ma c'è di meglio: la nostra azienda è impegnata nell'open source e quando si fa affidamento su software commerciale, ci sono poche cose che vogliamo evitare più di un vendor lock-in. Potreste avere preoccupazioni simili quando fate affidamento su un prodotto commerciale e lo comprendiamo pienamente. Se decidete di terminare l'abbonamento alla licenza di PMSE - bene - mantenete PMSE e siete autorizzati a continuare a usarlo. Perdete gli aggiornamenti gratuiti e il supporto gratuito, ma continuate a usare il software. Gratuitamente.

Se avete ulteriori domande riguardo alla licenza o vorreste ordinare il prodotto, non esitate a contattare sales@petamem.com.

Se avete ulteriori domande tecniche dettagliate, contattate support@petamem.com

chiudi