Ce guide pratique vise a illustrer comment travailler avec PMSE (et peut-etre comment demarrer). Il vous presentera les fonctions de base qui representent les fonctionnalites essentielles de PMSE.
Suite logicielle generique et middleware pour le SNLP. Philosophie UNIX : un kit de construction de petites unites qui peuvent etre combinees pour creer une nouvelle chaine d'outils. Independant du langage. Ecrit en Perl, suite de tests automatisee avec une couverture de code elevee, compatible UTF-8. Base sur CLI, traitement efficace et parallele. Documentation approfondie. Mode interactif disponible.
Nous devons d'abord definir l'environnement de travail. PMSE est concu pour traiter des documents independamment de la langue dans laquelle ils sont ecrits. Nous avons donc adopte une strategie pour traiter les documents dans diverses langues. Nous avons etabli une racine pour la bibliotheque qui est placee dans :
/data/library/
Lorsque la racine de la bibliotheque est definie, des repertoires pour des langues specifiques peuvent etre ajoutes. Le code est derive de la specification de langue iso-639-3. Le repertoire pour l'anglais sera donc :
/data/library/e/n/g/.
Si vous souhaitez construire votre bibliotheque a partir de zero, vous aurez besoin d'un repertoire dans lequel les fichiers sources seront places. Nous appelons un tel repertoire original, une fois que vous avez vos fichiers, vous devez les traiter (convertir en texte brut, effectuer la tokenisation, l'extraction de n-grammes, etc.) afin d'obtenir les informations souhaitees. Les fichiers traites seront stockes dans le repertoire derived.
Un script P_daf a ete concu pour fournir un cadre de telechargement automatise. P_daf lit un fichier INI, dans lequel est specifiee l'URL de la cible. Voici un exemple de fichier INI tres simple appele demo.ini :
[global]
lastfetch = 2013-01-30 00:00:00
interval = 6 months
name = demo
[Hyperion]
threads = 1;
BASE = http://www.gutenberg.org
url = %BASE%/ebooks/5436
match = a\shref="(?http://www.gutenberg.org/ebooks/(?\d+).(?kindle).noimages)"\stype
get = $file store = "$ENV{PMCORP_ROOT}/e/n/g/original/Hyperion.mobi"
La signification des sections et des arguments dans le fichier est decrite dans le manuel PMSE. Le fichier demo.ini doit etre stocke dans le repertoire $PMSE_BIN/cfg/daf.d/. Si vous avez place le fichier INI la, vous pouvez maintenant appeler le script :
P_daf --fetch demo
Apres le telechargement, le fichier 5436.epub devrait etre place dans le repertoire /data/library/e/n/g/original/.
Tout d'abord, allez dans la bibliotheque puis appelez le script P_dmf. Pour convertir le format MOBI en txt, vous devez installer le gestionnaire de livres electroniques calibre, qui est utilise par P_dmf comme l'un des outils integres. Vous pouvez utiliser le drapeau PM_CONVERTOR_WARNINGS=1 pour afficher les convertisseurs manquants sur votre systeme.
cd /data/library/e/n/g/
PM_CONVERTOR_WARNINGS=1 P_dmf --in /data/library/e/n/g/original/
Si tout s'est bien passe, vous devriez voir le repertoire /data/library/e/n/g/derived/. Il devrait contenir un fichier texte nomme Hyperion.txt. Affichons sa structure :
tree derived/
derived/
├── Hyperion.mobi
│ ├── lvl.last
│ └── Hyperion.mobi
│ │ └── Hyperion.txt -> /data/library/e/n/g/derived/Hyperion.mobi/./lvl.1/Hyperion.mobi/Hyperion.txt
│ └── lvl.1
│ └── Hyperion.mobi
│ └── Hyperion.txt
Le fichier txt contient un en-tete et un pied de page avec les informations de Gutenberg. Nous utiliserons P_rer afin de 'nettoyer' le fichier.
P_rer 's{.+?(Title:\sHyperion)}{$1}xms' Hyperion.txt
P_rer 's{\*\*\*\sEND\sOF\sTHE\sPROJECT.+}{}xms' Hyperion.txt
La suppression de ces sections assurera que les donnees linguistiques extraites seront correctes. (La repetition de tokens peut affecter la distribution des frequences.)
Dans PMSE, il existe un tokeniseur et un segmenteur de phrases predéfinis simples pour l'anglais. Les deux utilisent P_rer et ont la forme d'une macro. Une macro ici est un wrapper shell - un script qui est appele avec des arguments specifiques.
MAK_tokenize Hyperion.txt eng
MAK_1s1l -l eng -i Hyperion.txt
La fonctionnalite principale de PMSE est la generation de n-grammes et le calcul de diverses informations statistiques. Le code suivant prendra comme entree tous les fichiers txt du repertoire derived et generera des bigrammes et calculera leur score MI.
P_gnp --in derived/ --cluster count --ifilter '+token=\A[\w\d]+\z' --out bigrams --measure 'mi=all' --report 3
Remarque : Nous avons utilise une specification par defaut de n-grammes. Le parametre se presente ainsi : --ngrams 2 2 ' ' (n-grammes de taille 2, a partir d'une fenetre de taille 2 et le separateur entre les tokens est un espace blanc).
Les bigrammes sont stockes comme un objet PMSE interne. Le script P_dvf est capable de convertir cette structure en divers formats. Il est egalement capable de filtrer et de trier les resultats.
P_dvf --in mi_1\|2 --filter '($value < 9) | ($key =~ m{\b(that|this|was|and|we|she|he|I|a|is|are|the|be)\b}xmsi)' --sort '+val'
email : sales@petamem.com
telephone : +49 911 894 6455
fax : +420 284 680 110
Croyez-le ou non, maintenant vient la bonne partie. PMSE est un produit commercial pour le secteur academique et PetaMem souhaite vous offrir un forfait "tout compris, sans tracas, sans souci". Nous voulons egalement que cette suite logicielle soit abordable pour tous. Il existe deux modeles de licence simples : par utilisateur par poste de travail, soit 49,- EUR par mois ou a l'echelle du departement, soit 499,- EUR par mois sans limite de nombre d'utilisateurs ou de postes de travail (etudiants compris). Tous les prix sont + 19% de TVA, qui ne s'applique pas si vous etes en dehors de l'Allemagne et avez un numero de TVA.
Nous promettons une licence "sans tracas, sans souci". Avec le cout de licence, vous obtenez non seulement le droit d'utiliser le logiciel, mais aussi les mises a niveau gratuites et le support gratuit. Toute mise a niveau/retrogradation de licence est intuitive et fait ce que vous voulez. Vous aviez cinq licences individuelles et souhaitez une licence departementale ou vice-versa ? Aucun probleme ! Il suffit de nous en informer par email et nous ajustons les conditions de licence le jour ouvrable meme.
C'est encore mieux : notre entreprise est engagee dans l'open source et lorsqu'elle s'appuie sur des logiciels commerciaux, il y a peu de choses que nous voulons eviter plus qu'un verrouillage fournisseur. Vous pourriez avoir des preoccupations similaires lorsque vous comptez sur un produit commercial et nous le comprenons parfaitement. Si vous decidez de mettre fin a l'abonnement de licence PMSE - eh bien - vous conservez PMSE et etes autorise a continuer a l'utiliser. Vous perdez les mises a niveau gratuites et le support gratuit, mais vous continuez a utiliser le logiciel. Gratuitement.
Si vous avez d'autres questions concernant les licences ou si vous souhaitez commander le produit, n'hesitez pas a contacter sales@petamem.com.
Si vous avez d'autres questions techniques detaillees, veuillez contacter support@petamem.com
fermer