Avellino Discovery diagnostique sans soigner

Encore assez rares sur le marché français, les logiciels d’analyse de données évaluent l’état de santé des bases relationnelles ou des fichiers structurés. Utilisé notamment avant les migrations de systèmes, Avellino Discovery détecte
les doublons ou les mots mal orthographiés, traque les erreurs de jointure entre les tables ou les mauvaises dépendances entre les champs. Cependant, Discovery ne corrige pas les erreurs qu’il découvre. Il faut pour cela recourir à un logiciel d’ETL
qui se chargera des modifications nécessaires, avant d’exporter le contenu nettoyé de la base source dans l’application cible. ISoft, le distributeur français de Discovery, le propose d’ailleurs comme logiciel complémentaire de son ETL
Amadea.

Configuration : une installation en quelques minutes

Logiciel client-serveur, Avellino Discovery s’installe en quelques minutes à l’aide d’assistants. Les différents types d’analyses qui seront pratiqués sur la base sont tous activés par défaut. Discovery Server nécessite une machine
dédiée. En effet, le serveur importe dans son référentiel l’intégralité du contenu de la base, ce qui lui permet, à la différence de certains de ses concurrents, d’offrir un accès constant aux données. La connexion aux bases s’effectue par
l’intermédiaire de pilotes ODBC, ou directement, pour les fichiers plats et structurés (CSV, TXT…).

Prise en main : une interface sobre, mais efficace

Lors de notre prise en main, l’import d’une table Oracle de 13 champs comprenant 1 million d’entrées soit 80 Mo , n’a duré que 20 secondes. En cas de base volumineuse (20 ou 30 Go), ces délais peuvent, bien sûr, s’allonger
considérablement. Les imports s’effectuent alors en mode batch grâce au planificateur de tâche intégré.L’interface de Discovery est sans fioriture, mais d’une ergonomie exemplaire. Les menus sont malheureusement en anglais. L’analyse de la base et la création de métadonnées s’effectuent dès les données importées. Les champs contenant
des erreurs sont alors affichés en rouge. Un clic suffit à afficher les valeurs, les attributs et les métadonnées des champs concernés. Discovery en déduit un pourcentage de qualité des informations. Lors de notre test, le logiciel a ainsi détecté
des clés en surnombre, car attribuées à des champs ayant les mêmes valeurs. Un clic droit suffit alors à générer un fichier des erreurs au format HTML, TXT ou CSV. Ce fichier sert de base à leur correction par un ETL, Amadea dans notre cas.Les résultats d’analyse sont présentés suivant différents critères, pour affiner l’examen (clés, structures…). La structure des données est notamment décrite selon leur type : entier, caractère, mais aussi
jour/mois/année… Mais Discovery n’affranchit pas d’un examen des résultats par une personne physique, pour éliminer les faux positifs. Le logiciel a par exemple attiré l’attention sur une colonne contenant à la fois des nombres et des lettres
: il ne s’agissait pas d’une erreur de saisie, mais simplement de l’association de codes postaux anglais et français.

Notre avis : une aide appréciable, mais coûteuse

La vérification des dépendances (relation entre les champs), également pratiquée par Discovery, a permis notamment de découvrir qu’une même ville était en relation avec deux codes postaux différents. Enfin, la découverte de mauvaises
jointures entre deux tables s’effectue automatiquement. Discovery affiche sous forme de diagramme de Venn (deux ensembles présentant les informations communes aux deux tables) les valeurs à garder. Il présente également le traditionnel diagramme
entité-relation. Celui-ci pourra être modifié de façon à supprimer les mauvais liens, et interprété lui aussi par un ETL.En résumé, Discovery ne supprime pas le travail fastidieux de nettoyage d’une base, mais il le simplifie nettement. Son prix est en revanche relativement élevé, surtout lorsqu’il faut lui ajouter celui d’un ETL.

Avellino technologies : Avellino Discovery

Logiciel d’analyse automatique de données ; import complet de la base ; détection de doublons, de clés erronées, de dépendances entre champs et de jointures entre tables inutiles ; création automatique de métadonnées ; le serveur
fonctionne avec Windows 2000 et les principaux Unix du marché et nécessite un disque dur de grande capacité ; le client fonctionne avec Windows 2000, avec au moins 380 Mo de RAM ; distribué par ISoft.

Prix : à partir de 80 000 euros ht.

Avellino Discovery est indiqué lors d’une migration de systèmes ou lors de la mise en place d’un progiciel, pour nettoyer bases relationnelles et fichiers plats. Les erreurs détectées doivent être corrigées avec un
logiciel d’ETL.

Axio d’Evoke fonctionne selon le même processus. MetaRecon d’Ascential ne travaille, lui, que sur les métadonnées de la base, sans aller jusqu’aux données elles-mêmes.

– Accès direct aux données.

– Création de métadonnées.

– Exportation des erreurs.

– Interface claire.

– Logiciel non francisé.

– Prix.

🔴 Pour ne manquer aucune actualité de 01net, suivez-nous sur Google Actualités et WhatsApp.

Olivier Bibard