Passer au contenu

Les métadonnées structurent les données numériques

Le volume d’informations constituées sous la forme de données numériques connaît une croissance exponentielle. L’hétérogénéité de ces représentations limite les échanges de données, tout en rendant très difficile une manipulation automatisée. La solution passe par l’utilisation de métadonnées.

L’échange et le partage de données entre entreprises, ou groupes d’individus, jouent un rôle clé dans le développement de nos sociétés industrialisées. À titre d’exemple, quelques centaines de millions d’objets adressables sont disponibles sur le Web. Les nouvelles exigences des utilisateurs révèlent les limites des outils mis en ?”uvre pour manipuler cette gigantesque base de connaissances distribuée.

Il n’existe pas de procédé universel de codage

La recherche de données s’avère chaotique, et leur manipulation demeure difficilement automatisable. Un objet peut être perçu de différentes manières par plusieurs individus. Les valeurs d’une donnée stockée peuvent avoir des significations variables, voire incompatibles. Chaque donnée est le résultat d’une opération de codage appliquée aux caractéristiques (propriétés) des objets et des concepts qui nous préoccupent. Une donnée est ainsi un signifiant associé à un signifié (l’information qu’il représente). Un ensemble de règles permet de passer de l’information à la donnée (par un mécanisme de codage) et réciproquement, de la donnée à l’information (par un processus d’interprétation ou de compréhension).Il n’existe pas de procédé universel de codage, pouvant garantir que la même donnée sera interprétée de manière homogène par différents individus. Chaque règle de codage reflète un point de vue porté sur un objet dans un contexte particulier. Ce point de vue dépend, par exemple, de la culture de chacun et des objectifs associés à la numérisation d’une information. Les incohérences entre les représentations sont, dès lors, potentiellement nombreuses : formats de données multiples, codages incompatibles, homonymie, polysémie, synonymie… En utilisant des métadonnées, il est possible de pallier ce problème.Les propositions de standards, dans ce domaine, reposent sur trois éléments fondamentaux : un langage permettant de définir les métadonnées (syntaxe), des principes de notation décrivant leur mode de représentation (modèle) et une description formelle du vocabulaire employé (sémantique et ontologie). Minimiser le nombre de standards employés contribue à réduire le chaos.Quelques groupes de travail ont été créés avec, pour but, de mettre au point des propositions de standards (tel le célèbre KR, Knowledge representation).

Des standards basés sur XML

La plupart des résultats concrets obtenus s’appuient sur le langage XML, qui, en vertu de son extensibilité et de sa lisibilité, se prête parfaitement à la description de connaissances. Parmi les modèles de représentation, RDF (Resource description framework), standardisé par W3C, propose une approche simple qui ne privilégie aucun domaine ?” fonctionnel ou technique ?” en particulier. RDF emploie la notation EBNF (Extended Backus-Naur form), qui représente la connaissance selon un graphe orienté, reliant des ressources (sujets) à d’autres ressources ou à des litéraux (objets) par le biais de propriétés (prédicats) : Pierre (sujet) est l’auteur (prédicat) du site 01reseaux.fr (objet). Chaque ressource, décrite par un URI (Uniform resource identifier) peut être un site Web complet, un ensemble de pages Web, des parties de page, ou un objet physique quelconque. Les propriétés sont assimilables à des variables d’instances dans le modèle objet et décrivent un aspect, une caractéristique (un attribut) d’une ressource. Naturellement, la compréhension des graphes RDF doit être homogène entre le créateur et les utilisateurs.En particulier, la signification des prédicats doit être clairement détaillée : que signifie exactement “être l’auteur”? Tel est l’objectif des dictionnaires sémantiques qui, pour faciliter le cheminement entre signifiant et signifié, décrivent précisément les termes du vocabulaire employé ainsi que les relations existant entre ceux-ci. En RDF, ces connaissances particulières sont exprimées par le biais de schémas (RDFS).

Des thésaurus sémantiques communs

Chacun est libre de créer son dictionnaire, mais tout l’intérêt de l’approche résulte de l’utilisation de thésaurus sémantiques communs. Quelques dictionnaires standardisés existent déjà. Le Dublin Core (DC), du nom d’une petite ville américaine, est particulièrement adapté au monde de l’édition. DC est évolutif et repose à ce jour sur une quinzaine de termes dûment définis : titre, auteur, sujet, mot clé, description, éditeur, contributeur, date, type, format, identifiant, source, langue, domaine, droits… Prism, lui, est un dictionnaire proposant sensiblement les mêmes concepts que DC, mais dans un univers plus spécifiquement adapté au monde de la presse : dépêches, articles, chroniques… Adobe a récemment mis au point un dictionnaire (baptisé XMP) qui permet d’associer aisément des métadonnées aux documents PDF, ou d’en extraire.

🔴 Pour ne manquer aucune actualité de 01net, suivez-nous sur Google Actualités et WhatsApp.


Laurent Maury