Αυτός ο οδηγός θα πρέπει να σας επεξηγήσει πώς να εργαστείτε με το PMSE (και ίσως πώς να ξεκινήσετε). Θα σας εισαγάγει σε βασικές λειτουργίες που αντιπροσωπεύουν την κύρια λειτουργικότητα του PMSE.
Γενικό πακέτο λογισμικού και middle-ware για SNLP. Φιλοσοφία UNIX: ένα κιτ κατασκευής μικρών μονάδων που μπορούν να συνδυαστούν σε μια νέα αλυσίδα εργαλείων. Ανεξάρτητο γλώσσας. Γραμμένο σε Perl, αυτοματοποιημένη σειρά δοκιμών υψηλής κάλυψης κώδικα, υποστήριξη UTF-8. Βασισμένο σε CLI, Αποδοτική & παράλληλη επεξεργασία. Διεξοδική τεκμηρίωση. Διαθέσιμη διαδραστική λειτουργία.
Πρέπει πρώτα να ορίσουμε το περιβάλλον εργασίας. Το PMSE είναι σχεδιασμένο να επεξεργάζεται έγγραφα ανεξάρτητα από τη γλώσσα στην οποία είναι γραμμένα. Υιοθετήσαμε επομένως μια στρατηγική για το πώς να χειριστούμε έγγραφα σε διάφορες γλώσσες. Ορίσαμε μια ρίζα για τη βιβλιοθήκη που βρίσκεται στο:
/data/library/
Όταν η ρίζα της βιβλιοθήκης οριστεί, μπορούν να προστεθούν κατάλογοι για συγκεκριμένες γλώσσες. Ο κωδικός προέρχεται από την προδιαγραφή γλώσσας iso-639-3. Ο κατάλογος για τα Αγγλικά θα είναι επομένως:
/data/library/e/n/g/.
Αν θέλετε να δημιουργήσετε τη βιβλιοθήκη σας από την αρχή, θα χρειαστείτε έναν κατάλογο στον οποίο θα τοποθετηθούν τα αρχεία πηγής. Ονομάζουμε τέτοιον κατάλογο original, μόλις έχετε τα αρχεία σας, πρέπει να τα επεξεργαστείτε (να τα μετατρέψετε σε απλό κείμενο, να κάνετε την τοκενοποίηση, εξαγωγή n-grams κ.λπ.) για να πάρετε τις επιθυμητές πληροφορίες. Τα επεξεργασμένα αρχεία θα αποθηκευτούν στον κατάλογο derived.
Το script P_daf σχεδιάστηκε για να παρέχει ένα πλαίσιο για αυτοματοποιημένη λήψη. Το P_daf διαβάζει ένα αρχείο INI, στο οποίο καθορίζεται το URL του στόχου. Εδώ είναι ένα παράδειγμα πολύ απλού αρχείου INI που ονομάζεται demo.ini:
[global]
lastfetch = 2013-01-30 00:00:00
interval = 6 months
name = demo
[Hyperion]
threads = 1;
BASE = http://www.gutenberg.org
url = %BASE%/ebooks/5436
match = a\shref="(?http://www.gutenberg.org/ebooks/(?\d+).(?kindle).noimages)"\stype
get = $file store = "$ENV{PMCORP_ROOT}/e/n/g/original/Hyperion.mobi"
Η σημασία των ενοτήτων και των ορισμάτων στο αρχείο περιγράφεται στο εγχειρίδιο PMSE. Το αρχείο demo.ini πρέπει να αποθηκευτεί στον κατάλογο $PMSE_BIN/cfg/daf.d/. Αν έχετε τοποθετήσει το INI εκεί, μπορείτε τώρα να καλέσετε το script:
P_daf --fetch demo
Μετά τη λήψη, το αρχείο 5436.epub θα πρέπει να βρίσκεται στον κατάλογο /data/library/e/n/g/original/.
Πρώτα, μεταβείτε στη βιβλιοθήκη και στη συνέχεια καλέστε το script P_dmf. Για να μετατρέψετε τη μορφή MOBI σε txt, θα πρέπει να εγκαταστήσετε τον διαχειριστή e-book calibre, που χρησιμοποιείται από το P_dmf ως ένα από τα ενσωματωμένα εργαλεία. Μπορείτε να χρησιμοποιήσετε τη σημαία PM_CONVERTOR_WARNINGS=1 για να εμφανίσετε τους μετατροπείς που λείπουν από το σύστημά σας.
cd /data/library/e/n/g/
PM_CONVERTOR_WARNINGS=1 P_dmf --in /data/library/e/n/g/original/
Αν όλα πήγαν καλά, θα πρέπει να δείτε τον κατάλογο /data/library/e/n/g/derived/. Θα πρέπει να περιέχει ένα αρχείο κειμένου με το όνομα Hyperion.txt. Ας εμφανίσουμε τη δομή του:
tree derived/
derived/
├── Hyperion.mobi
│ ├── lvl.last
│ └── Hyperion.mobi
│ │ └── Hyperion.txt -> /data/library/e/n/g/derived/Hyperion.mobi/./lvl.1/Hyperion.mobi/Hyperion.txt
│ └── lvl.1
│ └── Hyperion.mobi
│ └── Hyperion.txt
Το αρχείο txt περιέχει μια κεφαλίδα και ένα υποσέλιδο με πληροφορίες Gutenberg. Θα χρησιμοποιήσουμε το P_rer για να 'καθαρίσουμε' το αρχείο.
P_rer 's{.+?(Title:\sHyperion)}{$1}xms' Hyperion.txt
P_rer 's{\*\*\*\sEND\sOF\sTHE\sPROJECT.+}{}xms' Hyperion.txt
Η αφαίρεση αυτών των τμημάτων θα διασφαλίσει ότι τα εξαγόμενα γλωσσικά δεδομένα θα είναι σωστά. (Η επανάληψη των tokens μπορεί να επηρεάσει την κατανομή των συχνοτήτων.)
Στο PMSE υπάρχει ένας απλός προκαθορισμένος τοκενοποιητής και τμηματοποιητής προτάσεων για τα Αγγλικά. Και τα δύο χρησιμοποιούν το P_rer και έχουν τη μορφή macro. Το Macro εδώ είναι ένα περιτύλιγμα shell - ένα script με το οποίο καλείται με συγκεκριμένα ορίσματα.
MAK_tokenize Hyperion.txt eng
MAK_1s1l -l eng -i Hyperion.txt
Η κύρια λειτουργικότητα του PMSE είναι η δημιουργία n-grams και ο υπολογισμός διαφόρων στατιστικών πληροφοριών. Ο παρακάτω κώδικας θα λάβει ως είσοδο όλα τα αρχεία txt στον κατάλογο derived και θα δημιουργήσει bigrams και θα υπολογίσει το MI-score τους.
P_gnp --in derived/ --cluster count --ifilter '+token=\A[\w\d]+\z' --out bigrams --measure 'mi=all' --report 3
Σημείωση: Χρησιμοποιήσαμε μια προεπιλεγμένη προδιαγραφή n-grams. Η παράμετρος έχει αυτή τη μορφή: --ngrams 2 2 ' ' (n-grams μεγέθους 2, από παράθυρο μεγέθους 2 και ο διαχωριστής μεταξύ των tokens είναι ένα κενό).
Τα bigrams αποθηκεύονται ως εσωτερικό αντικείμενο PMSE. Το script P_dvf είναι ικανό να μετατρέψει αυτή τη δομή σε διάφορες μορφές. Επίσης, μπορεί να φιλτράρει και να ταξινομήσει τα αποτελέσματα.
P_dvf --in mi_1\|2 --filter '($value < 9) | ($key =~ m{\b(that|this|was|and|we|she|he|I|a|is|are|the|be)\b}xmsi)' --sort '+val'
email: sales@petamem.com
phone: +49 911 894 6455
fax: +420 284 680 110
Είτε το πιστεύετε είτε όχι, τώρα έρχεται το καλό μέρος. Το PMSE είναι ένα εμπορικό προϊόν για τον ακαδημαϊκό τομέα και η PetaMem θέλει να σας προσφέρει ένα πακέτο "όλα περιλαμβάνονται, χωρίς ταλαιπωρία, χωρίς άγχος". Θέλουμε επίσης αυτό το πακέτο λογισμικού να είναι προσιτό σε όλους. Υπάρχουν δύο απλά μοντέλα αδειοδότησης: Ανά χρήστη ανά σταθμό εργασίας, που είναι 49,- EUR ανά μήνα ή σε επίπεδο τμήματος, που είναι 499,- EUR ανά μήνα χωρίς όρια στον αριθμό χρηστών ή σταθμών εργασίας (συμπεριλαμβανομένων φοιτητών). Όλες οι τιμές είναι + 19% ΦΠΑ, που δεν ισχύει αν βρίσκεστε εκτός Γερμανίας και έχετε VAT-Id.
Υποσχόμαστε αδειοδότηση "χωρίς ταλαιπωρία, χωρίς άγχος". Με το κόστος αδειοδότησης αποκτάτε όχι μόνο το δικαίωμα χρήσης του λογισμικού, αλλά και δωρεάν αναβαθμίσεις λογισμικού και δωρεάν υποστήριξη. Οποιεσδήποτε αναβαθμίσεις/υποβαθμίσεις αδείας είναι διαισθητικές και κάνουν-αυτό-που-εννοώ. Είχατε πέντε μεμονωμένες άδειες και θα θέλατε άδεια τμήματος ή το αντίστροφο; Κανένα πρόβλημα! Απλά ενημερώστε μας μέσω email και θα προσαρμόσουμε τους όρους αδειοδότησης την ίδια εργάσιμη ημέρα.
Γίνεται ακόμη καλύτερα: η εταιρεία μας είναι αφοσιωμένη στο ανοιχτό κώδικα και όταν βασιζόμαστε σε εμπορικό λογισμικό, υπάρχουν λίγα πράγματα που θέλουμε να αποφύγουμε περισσότερο από ένα vendor lock-in. Μπορεί να έχετε παρόμοιες ανησυχίες όταν βασίζεστε σε ένα εμπορικό προϊόν και το καταλαβαίνουμε απόλυτα. Αν αποφασίσετε να τερματίσετε τη συνδρομή αδειοδότησης του PMSE - λοιπόν - κρατάτε το PMSE και επιτρέπεται να συνεχίσετε να το χρησιμοποιείτε. Χάνετε τις δωρεάν αναβαθμίσεις και τη δωρεάν υποστήριξη, αλλά συνεχίζετε να χρησιμοποιείτε το λογισμικό. Δωρεάν.
Αν έχετε οποιεσδήποτε περαιτέρω ερωτήσεις σχετικά με την αδειοδότηση ή θα θέλατε να παραγγείλετε το προϊόν, παρακαλούμε μη διστάσετε να επικοινωνήσετε με sales@petamem.com.
Αν έχετε περαιτέρω λεπτομερείς τεχνικές ερωτήσεις, παρακαλούμε επικοινωνήστε με support@petamem.com
κλείσιμο