Passer au contenu

Création et indexation d’un document, étapes cruciales

Difficile, l’étape de formalisation de la connaissance est désormais simplifiée par l’intégration des outils de travail traditionnels de l’utilisateur. Ce qui ne va pas sans poser des problèmes d’indexation du contenu et de recherche.

Dans tout projet de knowledge management, la formalisation du savoir reste l’étape la plus difficile. Parce que les gens n’ont pas de temps à consacrer à la rédaction de rapports, parce qu’ils sont naturellement peu enclins à partager ce qu’ils savent, parce que la finalité d’une tâche supplémentaire et imposée n’est pas toujours claire dans leur esprit… Quelle que soit la raison, éditeurs comme entreprises ont pris conscience de cette difficulté et cherchent des moyens plus ou moins détournés pour amener les utilisateurs à formaliser leurs connaissances implicites, c’est-à-dire les choses qu’ils savent parce que c’est leur métier, mais qui n’ont jamais été mises sur papier. Chez Cénergys par exemple, on a choisi la méthode “dure“.Dans cette SSII, les consultants sont tenus de remplir un formulaire avant et après chaque mission pour décrire les compétences acquises dans le cadre du projet. Une clause qui est inscrite sur le contrat d’embauche. Il en est de même pour les commerciaux qui doivent alimenter l’application de KM conçue sur See-K de Trivium. La société a tout de même prévu une phase d’accompagnement importante et conçu des formulaires aussi simples que possible pour faciliter la saisie. “Tout le monde y gagne, explique Daniel Pécheur, p-dg de Cénergys. Lorsqu’un nouveau projet se présente, il suffit de saisir ses caractéristiques pour que l’outil de requête propose les personnes les plus compétentes. Il en est de même pour les commerciaux qui, plutôt que de rédiger une offre à chaque fois, peuvent piocher tout ou partie d’offres existantes, grâce à l’historique conservé par l’application, et ainsi gagner un temps précieux.”

Deux approches d’unification du contenu : avec ou sans XML

Côté éditeurs, on note deux principales approches : il y a ceux qui cherchent à indexer tous types de documents en les conservant dans leur format original et ceux qui convertissent les données en XML. Certains comme Microsoft combinent les deux, tous les documents conçus avec OfficeXP étant automatiquement stockés en XML, mais SharePoint Portal Server est également capable d’indexer de nombreux formats de documents grâce aux filtres de type PDF, CAO, etc. Même approche chez Lotus qui propose des “vues” sur les formats natifs de documents bureautiques, PDF, etc. Xerox comme NextPage, en revanche, ne touchent pas au format original : ils indexent le contenu et sont capables de classifier l’information par degré de pertinence indépendamment du format original. Rosebud, pour sa part, a préféré tout miser sur XML : quel que soit le format du document, il est automatiquement converti en XML selon un schéma spécifique à la nature des informations. Cette approche, présente aussi dans les bases documentaires de Lotus ou les répertoires partagés de Microsoft, autorise non seulement une qualification des informations, mais aussi un meilleur contrôle sur les droits d’accès des utilisateurs. Un document peut en effet être balisé de façon à en obtenir plusieurs publications selon les droits des utilisateurs ou, bien entendu, la nature des informations. Ce balisage peut encore servir à l’adaptation automatique du contenu à différents périphériques, le KM n’étant plus aujourd’hui limité à l’enceinte de l’entreprise. Issu du XML, le langage de transformation XSLT (Extensible Stylesheet Language Transformations) sert en effet à extraire l’information et à appliquer un script pour transformer le contenu en fonction de règles préétablies.Outil d’échange par lequel transitent également beaucoup d’informations exploitables dans le cadre du KM, le courrier électronique n’échappe pas à cette qualification et indexation. Chez Meta4, dans la version 4.0 de KnowNet, tous les e-mails passent désormais par l’analyse sémantique et sont automatiquement intégrés et classifiés dans des bases de connaissances. “Il faut faciliter la formalisation du contenu, et le courrier nous est apparu comme un des moyens les moins polluants dans les tâches quotidiennes de l’utilisateur”, explique Christophe Toulemonde, directeur de Meta4. Même approche chez Microsoft qui, depuis la version 2000 d’Exchange, dispose d’un système de stockage qui indexe les courriers électroniques, ou encore chez Lotus, où tous les courriers sont incorporés dans des bases.

Mêler informations structurées et non structurées

Si cet effort pour indexer un grand nombre de documents aux formats très variés aide à effectuer des recherches au-delà des bases de connaissances, la prise en compte de données structurées des bases relationnelles nécessite encore bien souvent une intégration préalable de la part des entreprises. Or, la connaissance peut provenir, par exemple, du corollaire entre des informations stockées dans une base et ce qui est mentionné sur un site. Le langage de requête n’étant pas le même, il est difficile d’adresser ces deux cibles en même temps, sauf si, comme dans AskOne de Xerox, les requêtes, formulées en langage naturel, sont automatiquement traduites à la volée dans le langage ad hoc de l’application cible. Ou si, comme c’est le cas chez Oracle, IBM et même Microsoft, un système d’indexation de données non structurées est annexé à la base de données relationnelle.

🔴 Pour ne manquer aucune actualité de 01net, suivez-nous sur Google Actualités et WhatsApp.


Marie Varandat