Le moteur d’indexation d’Autonomy adapte la reconnaissance des formes (Patterns Recognition) – une technique appliquée en biométrie pour la reconnaissance des empreintes digitales, des visages, de l’écriture, etc. – au domaine du langage. Baptisée Adaptive Probalistic Concept Modeling (APCM), cette technique a été inventée par l’Anglais Micha’l Lynch, un spécialiste de l’intelligence artificielle et créateur d’Autonomy. Fondée sur la théorie de l’information de Claude Shannon, qui a élaboré, en 1949, une théorie mathématique de l’information, cette technique repose sur l’utilisation d’une combinaison de différents algorithmes issus de la probabilité bayésienne (lire Décision Micro & Réseaux n?’ 415, p. 34) et des réseaux neuronaux. Micha’l Lynch a adapté l’APCM, initialement destinée à la seule reconnaissance des formes (physiques), au traitement du langage et de l’information.
Quantifier l’information
Partant de cette idée, il a élaboré le Dynamic Reasoning Engine (DRE), un module logiciel décliné de l’APCM et dédié à la reconnaissance de modèles textuels. Pratiquement, le DRE est capable d’extraire d’un corpus (un ensemble de documents) les concepts les plus récurrents et de les relier par affinité sémantique pour générer un modèle. Ainsi, une recherche sur le concept ” démographie ” sélectionnera les documents contenant les termes ” population “, ” statistique “, ” mortalité “, ” natalité “, etc. Pour effectuer ces rapprochements entre les documents et les centres d’intérêt d’un utilisateur, le DRE utilise des algorithmes de probabilité bayésienne. Ces algorithmes hiérarchisent l’information en attribuant un poids à chaque concept. Un poids dont la variation est déterminée par la fréquence d’apparition du concept et par ses associations dans le ou les documents. Cette méthode de classement s’inspire de la théorie de Claude Shannon : l’information devient une valeur quantifiable.
Pour établir des relations entre les documents, chaque concept présent dans le document sera balisé par un métalangage. Ce langage utilise des marqueurs comparables à ceux employés en XML. L’administrateur fixera le nombre de balises autorisées par document. Un ensemble de documents, aux balises identiques, sera associé automatiquement avant d’être soumis à l’utilisateur final, en fonction de ses centres d’intérêt. Dans notre exemple, tous les documents présents dans un intranet et contenant des concepts reliés au mot ” démographie ” seront indexés et regroupés. Cette opération est réalisée par un algorithme issu des réseaux neuronaux. Cet algorithme effectue le lien entre les différents modèles en mesurant le degré de similarité entre les documents. Cette mesure de similarité portera non pas sur les termes balisés ou les concepts, mais sur la forme topographique de chaque modèle (ou document).
Dresser les cartes des modèles
La topographie est dressée par la disposition des balises dans un document. L’ensemble va former une sorte de carte, qui sera alors comparée aux autres cartes. Les zones de recouvrement entre chacune constituant l’indice de pertinence.
Pour constituer son profil, l’utilisateur devra fournir un ensemble de données : cela peut-être son disque dur ou un ensemble de documents. Le DRE analysera alors automatiquement le contenu de ces documents et en extraira un modèle qui deviendra alors son profil. Chaque nouveau document, issu d’Internet, de l’intranet ou d’ailleurs, sera alors analysé en amont par le DRE et envoyé, ou non, aux utilisateurs en fonction du degré de pertinence. On le voit, ce type de fonctionnement n’est autre que celui d’un agent intelligent, doté de capacité d’apprentissage. Cette capacité d’apprentissage ne devient cependant efficiente que sur le moyen terme. Changer constamment de profil ne permettra pas de tirer profit de cette technique.
🔴 Pour ne manquer aucune actualité de 01net, suivez-nous sur Google Actualités et WhatsApp.