Si une image vaut mille mots, c’est que résumer le contenu d’un cliché en une courte phrase n’est pas toujours chose facile. Si un adulte normal se sort généralement assez bien de l’exercice, un enfant aura lui plus de difficulté à être synthétique et à se concentrer sur l’essentiel.
Le saut du machine learning
Et les ordinateurs, aussi puissants soient-ils, avaient jusqu’à présent grand peine à se sortir de ce petit travail. Même si de nombreux progrès ont été réalisés récemment dans les trois points clés de l’analyse d’une image : la détection d’objets, leur classification et leur appellation, l’humain conserve encore de l’avance, même si Google vient de la réduire considérablement.
Des recherches menées par des équipes du géant de la recherche ont récemment abouti à une grande avancée dans ce domaine. « Nous avons développé un système de machine learning qui peut automatiquement produire une légende pour décrire avec précision les images la première fois qu’il les voit », lit-on ainsi sur le blog de Google Research.
Deux réseaux neuronaux
Pour réussir ce pas en avant, Google a utilisé un type de réseau neuronal dit convolutionnel, très couru et efficace pour la reconnaissance d’image, conçu pour classer les objets dans les images. Une fois établie sous forme de texte, la liste des éléments présents dans le cliché est soumise à un autre réseau neuronal qui va construire une phrase en langage naturel, en anglais.
Pour l’instant, le sans faute n’est pas encore atteint et l’ordinateur se trompe parfois. A cause d’une perspective trompeuse, d’un sujet bizarre, « l’œil » de l’ordinateur interprète mal l’ensemble et rédige une légende erronée. Pour autant, dans les cas les plus limpides, le résultat entre une légende produite par un humain et par un ordinateur est très similaire. La balance de la précision penche parfois même du côté de la machine…
Une meilleure exploitation des contenus Web
Si la marge de progression est encore importante, ces avancées annoncent de gros changements potentiels. Le Web regorge en effet de contenus mal référencés car mal décrits, donc pas exploités. C’est notamment le cas de vidéo sur YouTube ou de nombreuses images disponibles aussi bien sur Flickr que dans d’autres banques d’images. Or, justement, Google compte encore beaucoup sur l’écrit pour trouver des contenus en réponse aux recherches de ses utilisateurs.
A lire aussi :
Bernard Ourghanlian : « demain, un assistant personnel pourra agir à notre place » – 23/09/2014
Source :
Blog de Google Research
🔴 Pour ne manquer aucune actualité de 01net, suivez-nous sur Google Actualités et WhatsApp.