AUTOVEILLE
Logiciel de veille informationnelle et Crawler web


AUTOVEILLE : logiciel de veille / Crawler web - Processus technique


Le Crawler web AUTOVEILLE : outil d'automatisation de la veille

Véronique Duong ne travaille plus du tout sur ses outils d'automatisation de la veille, et les contenus ci-dessous sont là à titre informatif. Elle a souhaité laisser une trace de son travail passé sur les outils de veille qu'elle a créés en 2010 et 2011.
Elle est désormais une experte SEO certifiée et passionnée par les tests qu'elle mène sur Google et Baidu au quotidien.

Pour information uniquement : Package AUTOVEILLE > Crawler Web

Dans le package, nous trouvons un programme pour crawler automatiquement les pages HTML d'un site web, un programme pour segmenter les langues asiatiques s'écrivant sans espace, un programme pour compter automatiquement le nombre d'occurrences des différentes formes d'un corpus réalisé au préalable (formes qui peuvent être utiliser pour trouver
des mots clés pour le tri, trouver de nouvelles requêtes à chercher sur Google, trouver de nouvelles thématiques, etc.), et d'un programme d'identification des textes(accompagné d'un répertoire de 16 autres scripts) pour l'évaluation des textes.

******

Le package AUTOVEILLE, crawler web (automatisation de la veille) contient :

- un robot téléchargeur générique fonctionnant directement avec une URL (telechargeur_generique_url.pl)

- un répertoire contenant un script téléchargeur fonctionnant avec un fichier de configuration de liens

- un répertoire de robots telechargeurs (divers scripts => pour URL à structure régulière)

- un robot segmenteur (pour langues asiatiques) (segmenteur.pl)

- un robot compteur comptant le nombre d'occurrences des formes d'un texte ou d'un corpus (compteur.pl)

- un robot d'identification automatique des textes (recc_script.pl)

- un répertoire de robots de reconnaissance (16) fonctionnant toujours avec le robot d'identification automatique (recc_script.pl)

- un fichier de configuration des textes ramenés du web (ramenes.txt)

- un fichier de configuraton des textes de la référence (reference.txt)

Bonus

- un répertoire PAYS contenant l'outil adapté à la Chine, à Singapour et à la Malaisie

- un corpus en chinois sur lequel nous avons travaillé (corpus_total_à_segmenter_motscles.txt)

- un dictionnaire contenant le nombre d'occurences des différentes formes de notre corpus

- une liste des mots-clés relevés (liste_mots_cles.txt)

- un répertoire / package SINGAPOUR contenant les scripts d'identification automatique adaptés à l'anglais (langue

officielle du Singapour). Les scripts de téléchargement pour Singapour (ainsi que d'autres pays) sont les mêmes

que ceux réalisés pour la Chine.

Retour