Définition de n-grammes
Les n-grammes définis par une spécialiste en TAL
Définition de n-grammes : qu'est ce que "n-gramme" veut dire ?
Les n-grammes sont des séquences de mots, des chaînes de caractères qui se suivent et qui forment des sacs de mots. On parle aussi d'unigramme, de bigramme, de trigramme. De nombreux outils SEO et de traitement automatique des langues utilisent les n-grammes pour détecter les contenus dupliqués, les répétitions. Grâce aux séquences de caractères similaires, les robots et les scripts arrivent à générer des scores de similarité entre deux pages web en termes de contenu.
Afin d'illustrer concrétement les n-grammes, voici un exemple de découpage en séquences de mots sur la phrase suivante :
« Quand le mystère est trop impressionnant, on n’ose pas désobéir. »
- unigrammes de mots : Quand / le / mystère / est / trop / impressionnant / on / n’ose / pas / désobéir
- bigrammes de mots : Quand le / le mystère / mystère est / est trop / trop impressionnant / impressionnant on / on n’ose / n’ose pas / pas désobéir.
- trigrammes de mots : Quand le mystère / le mystère est / mystère est trop / est trop impressionnant / trop impressionnant on /
Véronique Duong est ingénieure linguiste informaticienne de formation. Elle est passionnée par le SEO, la linguistique, et la création d'outils informatiques depuis 2010.
Vous pouvez la contacter afin de discuter de projets SEO Google ou Baidu à l'adresse autoveille@gmail.com