AUTOVEILLE
Constitution automatique de corpus de texte | Méthode


Constituer automatiquement un corpus de texte


Outil de collecte de données et de constitution automatique de corpus

Deux nouveaux outils de collecte de données pour la constitution automatique de corpus

L'outil de collecte d'information avec getstore

Cette chaîne est beaucoup plus simple à utiliser et plus robuste que l'outil implémenté avec du wget (qui reste tout de même très bien pour constituer de gros référentiels importants). Celle-ci ne contient que deux scripts Perl. Oui uniquement deux scripts Perl !
L'un permet d'aspirer, de télécharger, de collecter les sources du web automatiquement, et l'autre script permet d'extraire uniquement les données textuelles souhaitées grâce à des expressions Xpath.
Pour simplifier la chaîne en deux scripts, l'utilisation des modules CPAN a été nécessaire (ils sont robustes, et assez simples à implémenter lorsque l'on connaît bien la syntaxe).
Vous pouvez retrouver tous les modules Perl sur CPAN.org.

Description de la chaîne de traitements
La chaîne est composée de quelques phases dont les principales sont listées ci-dessous :

Identification des sources à aspirer -> aspiration des liens -> téléchargement -> collecte (script 1) -> transformation des données au format .php ou .html -> extraction des données textuelles ciblées (script 2) -> mise au format / mise en page demandée

Ce nouvel outil de collecte et de constitution de corpus nécessite également l'implémentation du langage Shell (Bash) pour certaines phases. L'outil est personnalisable, et de ce fait, le langage Shell permet une plus grande flexibilité au niveau des différentes étapes.
Ce script implémentant le getstore aspire les pages web une par une. C'est donc un outil de collecte de donnéestrès ciblé pour constituer de petits référentiels ou corpus.
L'outil de constitution automatique de corpus a été testé sur différents pays (Canada, Chine, Dubaï, Inde, France, etc.) et différentes langues dont le chinois, l'anglais, le français.
Sa flexibilité permet de couvrir un grand nombre d'écritures, de langues, et de domaines différents (juridique, informatique, scientifique, etc.).

L'outil de collecte de données textuelles avec get

Cet outil de collecte de données avec get est très pratique à utiliser et extrêmement robuste. Le get est la fonction qui permet de récupérer facilement et de cibler le téléchargement de plusieurs pages web en une seule fois. Cette chaîne de traitements est différente de celle du getstore et de celle du wget.
Jusqu'à présent, je trouve que c'est la meilleure chaîne parmi les 3 que j'ai développé. Elle cible parfaitement la page à télécharger, et ne télécharge que cette dernière. Le wget est trop permissif à mon goût (tout le site web est téléchargé !), et le getstore est un peu trop restrictif (une URL à la fois).
Le get n'aspire que ce qu'on lui donne à aspirer.

Description de la chaînes de traitements avec l'outil de collecte de données "get" :

Récupérer les URLS à télécharger dans un fichier .txt -> Changer les paramètres dans le script Perl "get" -> Lancer le script dans le Terminal avec les commandes shell appropriées -> Ouvrir le fichier qui a récupéré les pages web -> Travailler avec le scraping pour récupérer uniquement les parties voulues de la page web (le texte, les images, etc.) -> Mise au format voulu (Word, PowerPoint, etc.) -> Fin de la chaîne de traitements

Cet outil permet de réaliser automatiquement des corpus de volume moyen à gros. Il a été tester sur la réalisation de corpus juridique sur la Chine et l'Australie, soit deux langues : le chinois et l'anglais. Cela a très bien fonctionné. J'ai pu récupérer les pages demandées dans mon fichier .txt sans bruit (c'est-à-dire uniquement ce qu'il y avait dans le fichier .txt, le script n'est pas allé télécharger la page d'accueil, les autres pages, etc.)

Donc à retenir pour les 3 outils de collecte de données et de l'informations proposés par AUTOVEILLE :

- Vous voulez un gros corpus (plus de 300 textes) ? L'outil à la wget est fait pour vous :)
- Vous voulez un corpus moyen (entre 100 et 300 textes) ? L'outil avec du get fera l'affaire ;)
- Vous voulez un petit corpus ciblé (entre 50 et 100 textes) ? L'outil implémentant getstore est votre ami
Vous avez à votre disposition trois outils aussi performants les uns que les autres pour constituer automatiquement des référentiels dans n'importe quel secteur. Ils peuvent être utilisés pour de l'e-réputation, de l'opinion mining, data mining, référentiels juridiques, corpus parallèle de traduction, etc.

Vous voulez en savoir plus ? Contactez-moi, j'ai des exemples à vous (dé)montrer pour VOUS convaincre de l'efficacité et de la facilité de ces outils de collectes de données et constitution automatique de corpus ;)

Retour

CSS Valide !