Encore assez rares sur le marché français, les logiciels d’analyse de données évaluent l’état de santé des bases relationnelles ou des fichiers structurés. Utilisé notamment avant les migrations de systèmes, Avellino Discovery détecte
les doublons ou les mots mal orthographiés, traque les erreurs de jointure entre les tables ou les mauvaises dépendances entre les champs. Cependant, Discovery ne corrige pas les erreurs qu’il découvre. Il faut pour cela recourir à un logiciel d’ETL
qui se chargera des modifications nécessaires, avant d’exporter le contenu nettoyé de la base source dans l’application cible. ISoft, le distributeur français de Discovery, le propose d’ailleurs comme logiciel complémentaire de son ETL
Amadea.
Configuration : une installation en quelques minutes
Logiciel client-serveur, Avellino Discovery s’installe en quelques minutes à l’aide d’assistants. Les différents types d’analyses qui seront pratiqués sur la base sont tous activés par défaut. Discovery Server nécessite une machine
dédiée. En effet, le serveur importe dans son référentiel l’intégralité du contenu de la base, ce qui lui permet, à la différence de certains de ses concurrents, d’offrir un accès constant aux données. La connexion aux bases s’effectue par
l’intermédiaire de pilotes ODBC, ou directement, pour les fichiers plats et structurés (CSV, TXT…).
Prise en main : une interface sobre, mais efficace
Lors de notre prise en main, l’import d’une table Oracle de 13 champs comprenant 1 million d’entrées soit 80 Mo , n’a duré que 20 secondes. En cas de base volumineuse (20 ou 30 Go), ces délais peuvent, bien sûr, s’allonger
considérablement. Les imports s’effectuent alors en mode batch grâce au planificateur de tâche intégré.L’interface de Discovery est sans fioriture, mais d’une ergonomie exemplaire. Les menus sont malheureusement en anglais. L’analyse de la base et la création de métadonnées s’effectuent dès les données importées. Les champs contenant
des erreurs sont alors affichés en rouge. Un clic suffit à afficher les valeurs, les attributs et les métadonnées des champs concernés. Discovery en déduit un pourcentage de qualité des informations. Lors de notre test, le logiciel a ainsi détecté
des clés en surnombre, car attribuées à des champs ayant les mêmes valeurs. Un clic droit suffit alors à générer un fichier des erreurs au format HTML, TXT ou CSV. Ce fichier sert de base à leur correction par un ETL, Amadea dans notre cas.Les résultats d’analyse sont présentés suivant différents critères, pour affiner l’examen (clés, structures…). La structure des données est notamment décrite selon leur type : entier, caractère, mais aussi
jour/mois/année… Mais Discovery n’affranchit pas d’un examen des résultats par une personne physique, pour éliminer les faux positifs. Le logiciel a par exemple attiré l’attention sur une colonne contenant à la fois des nombres et des lettres
: il ne s’agissait pas d’une erreur de saisie, mais simplement de l’association de codes postaux anglais et français.
Notre avis : une aide appréciable, mais coûteuse
La vérification des dépendances (relation entre les champs), également pratiquée par Discovery, a permis notamment de découvrir qu’une même ville était en relation avec deux codes postaux différents. Enfin, la découverte de mauvaises
jointures entre deux tables s’effectue automatiquement. Discovery affiche sous forme de diagramme de Venn (deux ensembles présentant les informations communes aux deux tables) les valeurs à garder. Il présente également le traditionnel diagramme
entité-relation. Celui-ci pourra être modifié de façon à supprimer les mauvais liens, et interprété lui aussi par un ETL.En résumé, Discovery ne supprime pas le travail fastidieux de nettoyage d’une base, mais il le simplifie nettement. Son prix est en revanche relativement élevé, surtout lorsqu’il faut lui ajouter celui d’un ETL.
🔴 Pour ne manquer aucune actualité de 01net, suivez-nous sur Google Actualités et WhatsApp.