Le web sémantique affine la recherche sur le Net

Saisissez “gates” et “windows” dans Google et vous obtiendrez 205 000 pages de résultats, la plupart traitant de “Bill Gates” et de “Microsoft Windows“. En fait, vous recherchiez un fabricant de “portes” et de “fenêtres” aux États-Unis. Le web a du mal à faciliter l’accès à l’information. Les entreprises sont confrontées à la même difficulté sur leurs intranets, et les nouvelles offres de portail n’y peuvent rien.Le concept de web sémantique promu par Tim Berners Lee (l’inventeur du web) propose de gommer ces dysfonctionnements. Il s’appuie sur trois approches complémentaires : tout d’abord, ajouter des métadonnées à chaque ressource (site, page HTML, données XML, document Word, etc.), ensuite certifier leur authenticité, et enfin corriger les erreurs de jeunesse d’HTML. Ce langage non structuré mélange en effet métadonnées, présentation et information, si bien qu’un moteur de recherche est incapable de comprendre que le mot “gates” sur une page HTML du site de Microsoft désigne le nom d’une personne, alors que, sur un autre site, il désignera une “porte“.Le recours à XML et à Ressource Description Framework (RDF) devrait corriger ce problème. XML structure en effet un document en indiquant Bill Gates ou bien porte . Il suffirait ainsi d’indiquer “fabricant:objet:gates” dans Google pour exclure des résultats toutes les pages relatives à une personne. Google n’aurait plus qu’à descendre l’arbre XML des documents qu’il indexe et trouver les branches contenant “gates “.

Encore de nombreux obstacles

Trois entraves doivent cependant être surmontées avant de parvenir à ce niveau. Le premier est lié au volume des informations à traiter. Construire un index en suivant cette méthode est tout simplement impossible, car cela prendrait trop de temps. Sans compter que les trois quarts des informations disponibles en ligne ne sont pas au format XML. Le W3C propose donc d’enrichir l’information existante (et à venir) de métadonnées RDF.Les producteurs d’informations sont invités à ajouter à chaque page HTML un fichier décrivant son contenu en respectant une structure standard, car RDF s’appuie sur XML. Cette recommandation du W3C indique à la fois comment écrire des métadonnées pour qu’elles soient compréhensibles par tous, mais aussi comment les relier entre elles. RDF permet par exemple d’indiquer que ““. Il est possible de désigner ““, ““, etc., par une URI (Universal Resource Identifier), donc de constituer des métadonnées RDF presque exclusivement d’URL pointant vers des ressources du web.En revanche, pour être totalement universelles, les métadonnées RDF doivent découpler la signification des concepts qu’elles utilisent de leur représentation linguistique ou métier. “Canon” peut désigner à la fois une arme, un objet cylindrique, un ensemble de règles. Il convient donc de relier chaque concept de base à d’autres définitions afin d’en préciser le sens : ““.

Automatiser les traitements

Les États-Unis et l’Europe ont perçu cette problématique dès 1998, et créé deux langages qui fusionnent aujourd’hui pour donner DAML+OIL (Darpa Agent Markup Language et Ontology Interchange Language) qui aident à créer des ontologies.Ces dictionnaires sémantiques indiquent par exemple que “” et “” désignent la même relation logique d’appartenance entre deux objets. Ainsi, en se reposant sur des ontologies publiques, les créateurs de contenu du monde entier peuvent écrire des métadonnées RDF complexes mais standard. Si l’on y regarde de plus près, la construction d’ontologies est déjà amorcée aux États-Unis dans le domaine de la santé. Plus généralement, elle est aussi présente dans le monde entier, au travers des vocabulaires métiers comme le Steel Markup Language (SML) dans la sidérurgie ou de l’Advertising for XML (adXML) dans le domaine de la publicité.Des consortiums comme Oasis ou les Nations unies tentent de fédérer ces ontologies au travers de Rosettanet ou d’ebXML pour les faire interopérer plus facilement. Une normalisation qui ne vise qu’un seul objectif : automatiser les échanges interentreprises, c’est-à-dire déléguer aux ordinateurs la lourde tâche d’interpréter sans ambiguïté possible les métadonnées des documents pour prendre des décisions de routage et de transformation à la place des êtres humains.

Installer la confiance

Reste le problème de la confiance. En effet, si un internaute peut percevoir que le site marchand qui indique dans ses métadonnées “ <14> ” propose certainement une escroquerie, un ordinateur en est incapable. Les métadonnées RDF sont cependant aptes à pointer vers un certificat numérique attestant ainsi de l’authenticité et de la fiabilité de l’information. Cela limite l’utilisation abusive des métadonnées à des fins commerciales.Un site politique français, par exemple, avait ajouté “Pamela Anderson” à la liste de ses mots clés. Les métadonnées étaient alors détournées de leur but initial pour générer du trafic coûte que coûte, une pratique qui est devenue courante sur le web. En combinant RDF, SAML et XKMS, le web sémantique limite ce genre d’incident.

Des applications concrètes pour les entreprises

Ce réseau de métadonnées RDF reliées les unes aux autres au travers du web, qui incorporent à la fois une couche sémantique (ontologies) et une couche de confiance (certificats et clés), constitue le web sémantique.Selon le principe “qui peut le plus peut le moins“, la recherche d’information sur le web ou sur un intranet hérite des propriétés du web sémantique. Ainsi, une fois mis en place, il fiabilisera l’exploration d’informations sur les moteurs de recherche, les comparateurs de prix, les places de marché, etc. Mais pour l’heure, les applications concrètes visent surtout les intranets des entreprises.Des éditeurs tels que Profium, Mondeca ou Xyleme enrichissent le fonds documentaire de l’entreprise à l’aide de métadonnées. L’AFP utilise par exemple la plate-forme News & Publishing de Xyleme pour indexer son fonds de dépêches. Dès que l’une d’elles est rédigée, le journaliste incorpore dans le document un grand nombre de métadonnées XML qui permettront ensuite de retrouver plus facilement l’information. Kauppalehti, journal de finances finlandais, a préféré la solution SIR de Profium qui stocke les métadonnées de chaque document à l’extérieur, dans une base de données. Elle peut ainsi les enrichir à volonté sans avoir à travailler directement sur le document.

Difficile de reprendre l’existant

Quel que soit l’outil retenu, la mise en ?”uvre d’une solution de gestion sémantique du contenu demande un important travail de reprise de l’existant pour réellement porter ses fruits. L’entreprise doit tout d’abord définir sa propre ontologie, en s’appuyant éventuellement sur des méthodes existantes. Ainsi, à chaque fois que les termes “client” ou “customer” seront utilisés dans une recherche, ils fourniront les mêmes résultats (car les métadonnées RDF s’appuieront sur cette ontologie). La principale difficulté consiste ensuite à extraire ou à générer automatiquement des métadonnées crédibles à partir des documents existants. Les entreprises sont confrontées à deux problèmes.D’une part, les “propriétés” des documents Microsoft Office, PDF, etc., sont rarement renseignées, et il existe très peu d’outils spécialisés dans l’extraction ou la génération de métadonnées. D’autre part, la plupart (comme Mantis, Klarity, Hotmeta ou le Dublin Core Metadata Editor) ne sont pas des produits finis directement utilisables.Dans certains cas, il faut donc reprendre manuellement les documents les plus importants un par un, ou faire l’impasse sur le fonds existant. Ce travail doit également s’accompagner d’une sensibilisation des collaborateurs de l’entreprise sur les vertus des métadonnées. Un message qui n’est pas toujours simple à faire passer…

Un potentiel incalculable

Toutefois, lorsque l’ensemble des documents non structurés (Word, PDF, etc.) et des bases de données et autres sources XML possèdent leurs propres métadonnées, l’entreprise est alors en mesure d’automatiser un grand nombre de traitements. SIR de Profium scrute par exemple en permanence différents ports : répertoires, adresses e-mail, etc. À chaque fois qu’un document y est déposé, le logiciel analyse le fichier, extrait et stocke, ou met à jour la base des métadonnées, s’il y a lieu. Il peut ensuite déclencher n’importe quel traitement à partir de règles prédéfinies.Un document XML contenant les mots clés “Nokia” et “cours de Bourse” peut par exemple être transformé via XSLT (Extensible Stylesheet Language Transformations) puis envoyé sur un téléphone portable au format WML ou SMS pour alerter un client. Il peut également venir enrichir un portail ou être automatiquement classé dans une catégorie du fonds documentaire de l’intranet. Le principe est le même pour un document Word, HTML ou PDF, à la différence près que les transformations de format de présentation posent plus de difficultés. Des fonctionnalités de transformation et de routage sur événement qui rappellent étrangement les outils d’EAI…

Lexique

RDF
Resource Description Framework

Description des “ressources” par des “propriétés” en utilisant des “déclarations” sous la forme de triplet “sujet-prédicat-objet“.

DAML
Darpa Agent Markup Language

Extension de RDF pour construire des ontologies.

OIL
Ontology Interchange Language

Équivalent européen de DAML ne reposant pas sur RDF.

DAML+OIL

Fusion de DAML et OIL en un seul langage.

Ontologie

Association de différents concepts à l’aide de règles logiques.

Dublinc Core Metadata Element Set

Jeu de 15 métadonnées standard pour décrire le contenu de n’importe quel document.

XML Topics Map

Langage XML qui aide à définir des concepts et à les rapprocher par des relations logiques.

Métadonnées

Données décrivant les contenus.

RSS
RDF Site Summary

Utilisé pour échanger du contenu d’un site à l’autre.

Comment ils ont fait : RDF automatise la gestion du contenu de Kauppalehti

Kauppalethi est le premier journal financier de Finlande. Dès 1999, il décide de mettre en ?”uvre une gestion de contenu sémantique pour faciliter la collecte et l’agrégation d’informations provenant de sources hétérogènes. ” À leur arrivée, les informations extérieures sont classées et leurs métadonnées RDF stockées dans une base, “ précise Eero Tuomisto, rédacteur en chef du journal. Certaines dépêches sont ensuite automatiquement transformées au format de sortie adéquat et reroutées vers des partenaires extérieurs. D’autres alimentent une rédaction de 70 personnes qui produit 200 articles par jour.

” Ces articles sont à leur tour envoyés vers le site web et une sélection d’entre eux est utilisée pour le quotidien papier. Certains sont repris sur une chaîne de télévision du groupe et diffusés sous un format particulier vers des partenaires tels que Sonera ou Nokia “, ajoute Markku Kiuru, directeur marketing. L’ensemble des transformations est entièrement automatisé par le logiciel SIR de Profium. ” Sans une gestion sémantique de notre contenu, il aurait été bien plus difficile d’atteindre la rentabilité. Or, près des deux tiers des revenus de Kauppalehti proviennent aujourd’hui de la vente de contenu “, conclut Markku Kiuru.

Avis de l’expert : Construire un site web sémantique ? C’est déjà possible.

” Les apports qualitatifs de technologies comme XML, RDF ou Topics Map sont assez remarquables pour que les entreprises s’y intéressent. Ces outils aident déjà à construire un site web ou un intranet reposant sur une couche sémantique. Mais, il ne suffit pas de gérer des documents. Leur granularité est trop importante et la plupart ne sont pas assez structurés. Il faut absolument ajouter des métadonnées. Une fois encore convaincue, l’entreprise devra choisir entre stocker ces informations dans chaque document (ce qui semble intéressant pour les nouveaux) ou dans un référentiel unique (ce qui présente un plus grand intérêt pour récupérer un existant).
Certains outils autorisent déjà l’extraction ou la création automatique des métadonnées de documents existants. Mais, lorsque leur structure est trop complexe, il faut souvent le faire manuellement. Plus fastidieux, ce procédé peut toutefois aider à définir sa propre ontologie pour dissocier les concepts de leur représentation. La mise en place d’une ontologie facilite en outre la création de règles de transformation et de routage de l’information lorsque lon cherche à automatiser au maximum la gestion de son contenu. “

🔴 Pour ne manquer aucune actualité de 01net, suivez-nous sur Google Actualités et WhatsApp.

Frédéric Bordage