Coup de balai sur les données

L’informatique a vocation à traiter des informations. Un statut que nombre de données collectées par les entreprises n’atteindront jamais. Une étude datant de 1999 estimait ainsi à 15 % le pourcentage des adresses erronées et à 16 % celui des noms en double dans les bases de données des entreprises. D’où la montée en puissance des spécialistes du nettoyage que sont les éditeurs d’outils de ” data quality ” (ou cleansing). Un marché estimé à 250 millions de dollars par le Giga Group.

Pallier l’absence de normalisation

La fonctionnalité de base de ces outils reste l’analyse ” grammaticale “. L’idée étant, par exemple, de pouvoir identifier dans un texte les composants d’une adresse (rue, numéro, appartement, etc. ) et de les ranger dans un ordre prédéfini. Ou de repérer des doublons. Ainsi, en fonction de l’opérateur de centre d’appel, un même nom peut se retrouver orthographié de plusieurs façons. Pallier l’absence de normalisation est d’ailleurs l’une des principales tâches de ces logiciels. Les rues ” Saint-Jacques “, ” St Jacques ” et ” Saint Jacques ” ne correspondent qu’à une seule rue, dont l’application devra se charger de standardiser le nom. Le plus souvent, elle se basera sur des documents officiels, tels ceux édités par la poste locale.Un temps compléments de luxe, ces applications se transforment peu à peu en fonctionnalités des grands progiciels du marché. SAS Institute a mis la main en juin 2000 sur Dataflux, l’un des spécialistes du secteur derrière Oracle, qui a fait l’acquisition de Carleton en 1999. Les technologies de ce dernier sont devenues l’option ” pure integrate ” au sein d’Oracle Datawarehouse Builder. Sans être passé par un rachat, IBM intègre les technologies de Vality. L’éditeur doutils de data quality FirstLogic dispose, quant à lui, de partenariats avec Siebel, Peoplesoft, Informatica et Ascential.

🔴 Pour ne manquer aucune actualité de 01net, suivez-nous sur Google Actualités et WhatsApp.

udovic Nachury, à New York