Saisissez “gates” et “windows” dans Google et vous obtiendrez 205 000 pages de résultats, la plupart traitant de “Bill Gates” et de “Microsoft Windows“. En fait, vous recherchiez un fabricant de “portes” et de “fenêtres” aux États-Unis. Le web a du mal à faciliter l’accès à l’information. Les entreprises sont confrontées à la même difficulté sur leurs intranets, et les nouvelles offres de portail n’y peuvent rien.Le concept de web sémantique promu par Tim Berners Lee (l’inventeur du web) propose de gommer ces dysfonctionnements. Il s’appuie sur trois approches complémentaires : tout d’abord, ajouter des métadonnées à chaque ressource (site, page HTML, données XML, document Word, etc.), ensuite certifier leur authenticité, et enfin corriger les erreurs de jeunesse d’HTML. Ce langage non structuré mélange en effet métadonnées, présentation et information, si bien qu’un moteur de recherche est incapable de comprendre que le mot “gates” sur une page HTML du site de Microsoft désigne le nom d’une personne, alors que, sur un autre site, il désignera une “porte“.Le recours à XML et à Ressource Description Framework (RDF) devrait corriger ce problème. XML structure en effet un document en indiquant
Encore de nombreux obstacles
Trois entraves doivent cependant être surmontées avant de parvenir à ce niveau. Le premier est lié au volume des informations à traiter. Construire un index en suivant cette méthode est tout simplement impossible, car cela prendrait trop de temps. Sans compter que les trois quarts des informations disponibles en ligne ne sont pas au format XML. Le W3C propose donc d’enrichir l’information existante (et à venir) de métadonnées RDF.Les producteurs d’informations sont invités à ajouter à chaque page HTML un fichier décrivant son contenu en respectant une structure standard, car RDF s’appuie sur XML. Cette recommandation du W3C indique à la fois comment écrire des métadonnées pour qu’elles soient compréhensibles par tous, mais aussi comment les relier entre elles. RDF permet par exemple d’indiquer que “
Automatiser les traitements
Les États-Unis et l’Europe ont perçu cette problématique dès 1998, et créé deux langages qui fusionnent aujourd’hui pour donner DAML+OIL (Darpa Agent Markup Language et Ontology Interchange Language) qui aident à créer des ontologies.Ces dictionnaires sémantiques indiquent par exemple que “
Installer la confiance
Reste le problème de la confiance. En effet, si un internaute peut percevoir que le site marchand qui indique dans ses métadonnées “
Des applications concrètes pour les entreprises
Ce réseau de métadonnées RDF reliées les unes aux autres au travers du web, qui incorporent à la fois une couche sémantique (ontologies) et une couche de confiance (certificats et clés), constitue le web sémantique.Selon le principe “qui peut le plus peut le moins“, la recherche d’information sur le web ou sur un intranet hérite des propriétés du web sémantique. Ainsi, une fois mis en place, il fiabilisera l’exploration d’informations sur les moteurs de recherche, les comparateurs de prix, les places de marché, etc. Mais pour l’heure, les applications concrètes visent surtout les intranets des entreprises.Des éditeurs tels que Profium, Mondeca ou Xyleme enrichissent le fonds documentaire de l’entreprise à l’aide de métadonnées. L’AFP utilise par exemple la plate-forme News & Publishing de Xyleme pour indexer son fonds de dépêches. Dès que l’une d’elles est rédigée, le journaliste incorpore dans le document un grand nombre de métadonnées XML qui permettront ensuite de retrouver plus facilement l’information. Kauppalehti, journal de finances finlandais, a préféré la solution SIR de Profium qui stocke les métadonnées de chaque document à l’extérieur, dans une base de données. Elle peut ainsi les enrichir à volonté sans avoir à travailler directement sur le document.
Difficile de reprendre l’existant
Quel que soit l’outil retenu, la mise en ?”uvre d’une solution de gestion sémantique du contenu demande un important travail de reprise de l’existant pour réellement porter ses fruits. L’entreprise doit tout d’abord définir sa propre ontologie, en s’appuyant éventuellement sur des méthodes existantes. Ainsi, à chaque fois que les termes “client” ou “customer” seront utilisés dans une recherche, ils fourniront les mêmes résultats (car les métadonnées RDF s’appuieront sur cette ontologie). La principale difficulté consiste ensuite à extraire ou à générer automatiquement des métadonnées crédibles à partir des documents existants. Les entreprises sont confrontées à deux problèmes.D’une part, les “propriétés” des documents Microsoft Office, PDF, etc., sont rarement renseignées, et il existe très peu d’outils spécialisés dans l’extraction ou la génération de métadonnées. D’autre part, la plupart (comme Mantis, Klarity, Hotmeta ou le Dublin Core Metadata Editor) ne sont pas des produits finis directement utilisables.Dans certains cas, il faut donc reprendre manuellement les documents les plus importants un par un, ou faire l’impasse sur le fonds existant. Ce travail doit également s’accompagner d’une sensibilisation des collaborateurs de l’entreprise sur les vertus des métadonnées. Un message qui n’est pas toujours simple à faire passer…
Un potentiel incalculable
Toutefois, lorsque l’ensemble des documents non structurés (Word, PDF, etc.) et des bases de données et autres sources XML possèdent leurs propres métadonnées, l’entreprise est alors en mesure d’automatiser un grand nombre de traitements. SIR de Profium scrute par exemple en permanence différents ports : répertoires, adresses e-mail, etc. À chaque fois qu’un document y est déposé, le logiciel analyse le fichier, extrait et stocke, ou met à jour la base des métadonnées, s’il y a lieu. Il peut ensuite déclencher n’importe quel traitement à partir de règles prédéfinies.Un document XML contenant les mots clés “Nokia” et “cours de Bourse” peut par exemple être transformé via XSLT (Extensible Stylesheet Language Transformations) puis envoyé sur un téléphone portable au format WML ou SMS pour alerter un client. Il peut également venir enrichir un portail ou être automatiquement classé dans une catégorie du fonds documentaire de l’intranet. Le principe est le même pour un document Word, HTML ou PDF, à la différence près que les transformations de format de présentation posent plus de difficultés. Des fonctionnalités de transformation et de routage sur événement qui rappellent étrangement les outils d’EAI…
🔴 Pour ne manquer aucune actualité de 01net, suivez-nous sur Google Actualités et WhatsApp.