Passer au contenu

La qualité des données revient sur le devant de la scène

Les éditeurs, tels SAS ou Ascential, intègrent plus finement des fonctions de gestion de la qualité des données dans leurs solutions d’ETL (extraction, transformation et chargement).

Selon le cabinet d’analyses Data Warehousing Institute, les problèmes de qualité des données coûteraient plus de 600 milliards de dollars par an aux sociétés américaines. Autant dire que, avec l’augmentation du volume des données stockées dans le système d’information et avec l’hétérogénéité persistante des sources de données, les entreprises ne peuvent plus se contenter de développements ponctuels. Le maître mot : automatisation.C’est ainsi que SAS Institute et Ascential annoncent tous deux des stratégies d’intégration d’outils dédiés à la qualité des données. Ascential vient ainsi d’acheter Vality Technology, l’un des premiers spécialistes du genre, pour compléter sa solution d’ETL (extraction, transformation et chargement) Datastage XE, qui comprenait un module de gestion de la qualité, mais orienté audit.” Cela permet la construction de statistiques d’utilisation, la vérification de formats et de bornes, mais pas le nettoyage “, précise Stéphane Heckel, chargé du marketing produits chez Ascential. Vality apportera donc ses technologies non seulement dans l’audit, mais aussi dans le nettoyage, le dédoublonnage et le matching d’adresses.” Cette dernière fonction donne une vision unique d’un client quand les données qui le concernent sont traitées par plusieurs progiciels “, explique Stéphane Heckel. Deux algorithmes permettent soit d’établir un lien vers la meilleure donnée, soit d’opérer une agrégation des informations les plus pertinentes.

SAS tire parti de lacquisition de Dataflux

SAS Institute, lui, propose ETLQ, conséquence de l’intégration de Dataflux, acquis l’année dernière. “La solution d’ETL de SAS possédait déjà des fonctions de gestion de la qualité des données. Pour le contrôle des données et la cardinalité, cela pouvait suffire”, estime Marcel Lemahieu, responsable des offres datawarehouse et décisionnelle chez SAS. Dataflux ajoute principalement à cela le dédoublonnage des adresses et des noms et le matching.” La possibilité d’appliquer ces règles sur un échantillon, puis de les automatiser dans un batch est très utile “, ajoute Marcel Lemahieu. Datastage, agrémenté de ses nouvelles fonctions devrait être commercialisé en septembre prochain, après adaptation de l’outil aux spécificités françaises.Informatica, de son côté, propose aussi bien les technologies de l’éditeur Trillium que celles de Datamentors (Datafuse).

🔴 Pour ne manquer aucune actualité de 01net, suivez-nous sur Google Actualités et WhatsApp.


Renaud Edouard