Passer au contenu

Xerox sort les images du chaos

Le constructeur dévoile son outil d’indexation de photographies. Il décèle les motifs de référence présents dans les images.

La gestion des contenus multimédias (ou DAM) constitue l’une des briques de la gestion de contenu la plus prometteuse. Mais aussi la moins mature. Les technologies d’indexation à la volée de sons, d’images ou de
vidéos restent encore rares. Dans ce contexte, les dernières avancées de Xerox en matière de catégorisation d’images s’avèrent précieuses.Situé à Grenoble, le centre de recherche européen du constructeur vient de dévoiler le fruit de ses recherches, menées dans le cadre d’un projet européen (Lava) axé sur les systèmes de vision. Le parti pris technologique du
constructeur est de ne pas indexer les images en fonction de leur texture, couleur ou forme, mais selon leurs motifs de référence centralisés dans un dictionnaire visuel.

Repérer des objets même masqués

Décrire une image indépendamment du positionnement des objets qui la composent. Tel est l’objectif de cette méthode. Qu’elle soit au premier ou en arrière-plan, en partie masquée par un arbre, une voiture doit pouvoir être
identifiée.Le procédé de Xerox repose sur un dictionnaire de ‘ mots visuels ‘ : les chercheurs se sont appuyés sur un corpus de plusieurs milliers d’images. Dans un premier temps, ils ont déterminé toutes les régions
d’intérêt (patches) de chacune d’elles. Ces régions représentent des points de rupture dans l’image, tels un trou dans un mur, un ?”il sur un visage, ou encore une touche de téléphone.Ils se sont ensuite servis de ces nombreuses régions d’intérêt pour formaliser ces mots visuels, autrement dit, des régions d’intérêt de référence (key patches). Hébergé dans un dictionnaire,
‘ chacun de ces éléments génériques est caractérisé par une matrice 4/4/8 stockant des indicateurs de descriptions : luminescence, orientation, variation de la lumière, etc. ‘, précise Chris Dance, responsable
chez Xerox des recherches sur l’image.

400 images nécessaires au paramétrage

Le sens de la photo est apporté dans ensuite par l’utilisateur. Il s’agit d’associer différents mots visuels à un objet présent dans l’image. Pour créer une catégorie ‘ téléphone ‘,
l’utilisateur soumet au système de Xerox un échantillon d’images caractéristiques représentant des téléphones.‘ Nous estimons qu’environ 400 images sont nécessaires, en moyenne, pour définir une catégorie ‘, précise Jutta Willamowski, chercheuse. Les régions d’intérêt décelées sont, après
traitement, filtrées, comparées, et rapprochées des mots visuels du dictionnaire. Dès lors, certaines combinaisons de ces mots sont donc directement liées à la catégorie téléphone. ‘ Nous recourons à des méthodes statistiques de
clustering pour regrouper ces régions dans des classes communes ‘,
poursuit Jutta Willamowski. Voilà pour le paramétrage.Dernière étape : la catégorisation automatique des images. En fonction de l’appartenance des mots visuels à une catégorie, les images sont classées dans l’une ou plusieurs d’entre elles. La pertinence
d’un tel modèle dépendra de la richesse du dictionnaire.’ Pour l’heure, le dictionnaire reste limité à un millier de mots. Par ailleurs, nous n’avons défini qu’une quinzaine de catégories ‘, reconnaît Chris Dance. Bien peu donc. Mais l’outil offre
l’avantage d’être généraliste. Lorsque ce dernier se trouvera étoffé, il répondra aux besoins des documentalistes.Même si son mode de commercialisation n’a pas encore été décidé, nul doute que ce système de catégorisation servira la branche service de Xerox spécialisée dans les services documentaires. Le prochain axe de recherche du
constructeur portera, cette fois, sur la classification de documents associant texte et image.

🔴 Pour ne manquer aucune actualité de 01net, suivez-nous sur Google Actualités et WhatsApp.


Vincent Berdot