AUTOVEILLE
Crawler web et Logiciel d'automatisation de la veille


AUTOVEILLE : Fonctions de l'outil de veille automatique en mode crawler web(suite)


Fonctions suivantes du crawler web

Identification automatique de textes

=> robot recc_script.pl

fonction : Ce script est accompagné d'un répertoire contenant 16 autres scripts (le script recc_script.pl et le répertoire des 16 autres scripts doivent se trouver dans un même dossier) qui sont appelés un à un lors de chaque itération de la boucle foreach. Ce script et le répertoire des 16 scripts doivent toujours se trouver dans le même dossier, le même répertoire. Il permet de faire l'évaluation en indiquant les textes ramenés (depuis le web) sur la konsole. Cependant les textes ne sont pas forcément corrects ou attendus dans la référence (par ex : le type de texte ne correspond pas, le système a ramené un article de presse alors qu'on attendait à retrouver un texte de loi).

utilisation : perl recc_script.pl *répertoire_contenant_textes_web* ou *titres_textes_lois_web.txt*

Vérification automatique des textes ramenés corrects

=> robot recc_script.pl + fichier de configuration ramenes.txt

fonction : Le script recc_script.pl permet également de détecter automatiquement les textes correctement ramenés. Pour cela il faut créer au préalable un fichier de configuration contenant uniquement les titres des textes de lois ramenés. Sachant que les scripts contiennent les titres de lois de la référence, si à chaque fois le script trouve un même titre dans la référence et dans le fichier ramenes.txt = le texte est correct.

utilisation : perl recc_script.pl *ramenes.txt*

Fonction bonus : moteur de recherche

Pour utiliser la fonction "moteur de recherche", il faut employer la fonction egrep.

Outils nécessaires

- la fonction egrep et ses options -o et -i (pour les langues latines)

- le terminal de Linux ou Mac OS ou Cygwin de Windows

Comment procéder ?

Après avoir collecté les données du web, nous devons, si nous voulons retrouver des documents comportant un ou plusieurs mots-clés
de nos requêtes utilisateurs, utiliser egrep pour retrouver ces documents.

Dans le terminal, il faut saisir la commande suivante : egrep -o -i "mot-clé_1 | mot_clé_2 | etc." *répertoire_html_aspirées*
Avec l'option -l de egrep, nous pouvons avoir le nom exact de la page HTML contenant le(s) mot-clé(s). Cette commande est également utilisée pour semi-automatiser le tri des données téléchargées du web.

Avec la fonction wc -l, nous pouvons avoir le nombre d'occurrences du mot-clé en question.
Pour ajouter cette fonction en plus; il faut saisir la commande ainsi : egrep -o -i "mot-clé_1 | mot_clé_2 | etc." *répertoire_html_aspirées* | wc -l
Page précédente - Retour