AUTOVEILLE
Un Crawler web et un Logiciel de veille automatique


AUTOVEILLE : Fonctions des outils d'automatisation de veille


Fonctions du crawler web AUTOVEILLE

Aspiration automatique des données

=> robot telechargeur_generique.pl

fonction : Ce script permet de télécharger les différentes pages HTML d'un site web

utilisation : perl telechargeur_generique.pl *URL*


=> robot telechargeur_mep.pl

fonction : Ce script permet de crawler les pages HTML ayant des URL à structure réguliére d'un site web, ici, c'est le ministére de la protection environnementale chinois (MEP)(dans le package, nous avons un répertoire script_telechargeurs dans lequel se trouve des scripts de même type pour d'autres sites web).

utilisation : perl telechargeur_mep.pl

=> répertoire telechargement_fichier_configuration

fonction : le script de ce sous-package fonctionne avec un fichier de configuration contenant plusieurs liens. Il permet d'aspirer tous les liens en même temps. L'exemple ci-joint concerne le site chinasafety.gov.cn. Il faut créer un fichier de configuration avec différents liens à chaque aspiration.

utilisation : perl wget_chinasafety.pl *fic_conf_chinafety*

Segmentation automatique de l'écriture chinoise

=> robot segmenteur.pl

fonction : Pour traiter les langues asiatiques s'écrivant sans espace comme l'écriture chinoise, il faut segmenter l'ensemble des textes et des corpus au préalable. Après la segmentation, il est intéressant de compter le nombre d'occurrences des formes des textes (textométrie) pour en faire des mots-clés ou des requêtes.

utilisation : perl segmenteur.pl *corpus*

Calcul automatique des occurrences de formes d'un corpus

=> robot compteur.pl

fonction : Ce programme permet de compter le nombre d'occurrences des différentes formes d'un texte ou d'un corpus

(Pour recherche de mots-clés pour thématiques, requêtes sur Google, => mots-clés : automatiser au minimum le tri, etc.)

utilisation : perl compteur_mots.pl *corpus*

Page suivante - Retour