De quoi faire rêver les services de communication. Depuis cet été, Factiva propose un outil servant à mesurer la réputation des entreprises. Historiquement,
la filiale de Reuters et du Dow Jones indexe et fournit des contenus spécialisés en provenance de sources multiples. La presse généraliste et spécialisée essentiellement.Mais, aussi riche que soit cette matière (près de 9 000 sources multilingues), elle n’en reste pas moins limitée à des contenus propriétaires. Ignorant toutes les productions du web, elle s’avère insuffisante pour mesurer
l’image d’une marque.D’où le partenariat technologique noué avec IBM, il y a tout juste un an. Big Blue lançait alors Webfountain, une plate-forme associant des fonctions de moteur de recherche et de textmining.
Des corrélations insoupçonnées
C’est donc un corpus réunissant les publications de presse et une production web diversifiée (pages web, forums, chats, blogs, données légales, documents d’entreprises…) que couvre le module Insight for Reputation.
Ce dernier retrace sur plusieurs mois l’occurrence d’une association entre le nom de l’entreprise à surveiller, et plusieurs mots clés.Exemple : un industriel dénommé Dupont fabrique une série de produits défectueux. Au bout d’un mois, le couple Dupont/panne, d’abord confiné aux blogs, fait son apparition dans les groupes de discussion. Et ce à une
fréquence inquiétante. Quelques semaines plus tard, les associations de consommateurs commencent, elles aussi, à y prêter attention.Alerté à ce stade, l’industriel a encore le temps d’organiser sa défense avant que la presse ne se saisisse de l’information… Et mieux encore, au-delà de cette surveillance, le logiciel peut établir également
des corrélations insoupçonnées. Il peut identifier par exemple un lien entre certaines machines de Dupont et un danger d’électrocution.Une telle capacité de traitement est assurée par IBM. Sa plate-forme Webfountain, produit issu de quatre ans de recherche des laboratoires d’Almaden, réalise plusieurs fonctions.Première d’entre elles, l’extraction des contenus web. Big Blue affirme que ses crawlers capturent tous les contenus de la totalité de la toile en trente-deux heures. Une telle performance ne pourrait être atteinte sans
connaître en partie la structure du web.Les algorithmes d’évaluation utilisés dans Webfountain visent précisément à déceler ces structures. Le moteur de recherche d’IBM est ainsi construit autour de l’algorithme HITS (Hypertext-Induced Topic Search),
reposant sur la notion de communauté de sites.Stockés dans un référentiel, tous ces contenus sont, dans un second temps, indexés. Dernière étape : le textmining, pour déceler un sens au contenu. Il s’agit alors de dégager des thématiques, d’élaborer des plans de
classement sur le vif, et d’établir des corrélations entre les contenus par le biais de leurs attributs.Ces analyses sémantiques reposent essentiellement sur des méthodes statistiques et d’intelligence artificielle. C’est donc sur Webfountain que vient se poser le module de Factiva. Ce dernier lance une requête (saisie en
langage naturel par l’utilisateur), récupère le flux d’IBM et présente les résultats dans son propre format.
🔴 Pour ne manquer aucune actualité de 01net, suivez-nous sur Google Actualités et WhatsApp.