AUTOVEILLE
R&D en automatisation de crawler web et veille stratégique


Les recherches et les études pour une veille automatisée


Automatisation des étapes chronophages en SEO grâce au TAL

Dans le domaine du Traitement Automatique des Langues (TAL), les experts recherchent des solutions pour automatiser plusieurs types de tâches chronophages comme la collecte d'informations, le tri des informations collectées, le nettoyage de corpus de textes, l'uniformisation des textes, etc.
Voici une définition de cette discipline : Définition de l'ingénierie linguistique et traitement automatique des langues
Véronique Duong, après avoir travaillé sur de la R&D pour automatiser la collecte d'informations en veille stratégique, s'est concentrée sur la création de crawlers pour aspirer et extraire automatiquement des contenus textuels dans des sites entiers pour des fins en SEO. Cela n'est pas du tout évident car il faut savoir qu'aucun site n'est construit de la même manière. Actuellement, elle est toujours en pleine réflexion sur la question car elle n'a pas encore trouvé une véritable réponse pour cette réelle problématique que beaucoup de SEO font face.
Elle s'est alliée avec son ami, qui est également TAListe de formation, pour trouver une solution, et créer un outil, un crawler de contenus textuels afin de répondre, et surtout de résoudre de nombreuses problématiques que les SEO font face au quotidien.
Elle ne travaille plus du tout sur ses outils d'automatisation de la veille, et les contenus ci-dessous sont là à titre informatif. Véronique a souhaité laisser une trace de son travail passé sur les outils de veille qu'elle a créés en 2010 et 2011.

Pour information uniquement: Automatiser la veille grâce aux compétences de l'ingénierie linguistique

Les outils de la chaîne de traitements pour constituer un référentiel

Un logiciel de veille est avant tout un outil de crawler web, de collecte et de gestion de données et de l'informations. Lorsqu'on sait comment implémenter un processus pour collecter des masses de données (big data), cela peut être une grande aide pour le crawl et la collecte de contenus en vue de développer un crawler automatique. L'idée d'AUTOVEILLE était à la base une réflexion sur la gestion de la masse d'informations disponible sur le web, et peu à peu, cette idée s'est affinée, et les outils d'AUTOVEILLE sont nés.

Dans cette rubrique "Recherche", vous trouverez toutes les recherches, tous les scripts Perl que j'ai développés ainsi que leurs fonctionnements pendant mes recherches universitaires.
Ces scripts Perl (ou plutôt la chaîne de traitements) ont été développés entre avril 2011 et octobre 2011. Dans cette partie, je vous présente tous les robots Perl qui sont nécessaires pour constituer automatiquement un référentiel volumineux (de plus de 500 textes). La fonction utilisée à l'époque était le wget. Mais depuis, j'ai développé d'autres outils de corpus qui implémentent des fonctions plus ciblées comme le get ou le getstore.

Les outils de corpus Perl

Les fonctionnements des outils de corpus Perl

Dans cette partie, je vous explique les fonctionnements des robots Perl de la chaîne de traitements, du téléchargeur.pl au identificateur-de-textes.pl.
Les scripts Perl fonctionnent sous le terminal de Kunbuntu ou de Ubuntu (Linux) ou sous Strawberry Perl (Windows).
Vous trouverez tous les implémentations pour faire tourner les outils d'informations et de données Perl ci-dessous:
Les fonctionnements des outils de corpus Perl

Retour

CSS Valide !