Passer au contenu

Comment Google va traduire la langue des signes à l’aide d’une intelligence artificielle

Le moteur de recherche dévoile un logiciel capable d’interpréter les gestes à partir de la caméra d’un smartphone. Un « coup de main » prometteur pour comprendre la langue des signes. 

En plus des 103 langues de Translate, Google pourrait ajouter une nouvelle corde à son arc linguistique : la langue des signes. Dans son laboratoire Google a développé une intelligence artificielle (IA) capable de reconnaître les signes effectués par les doigts d’une main à l’aide d’une image vidéo. Si d’autres ont déjà développé cette technologie comme SignAll ou Kintrans, pour la première fois elle devient utilisable sur smartphone.

« Notre méthode permet d’obtenir des performances en temps réel sur un téléphone mobile » expliquent les chercheurs Valentin Bazarevsky et Fan Zhang en charge du programme de développement chez Google.

30 000 photos de main en haute définition

Les scientifiques ont d’abord présenté l’IA au Computer Vision and Pattern Recognition (CVPR) 2019 en juin, en Californie. Mais, ce n’est que très récemment qu’ils ont présenté les avancées de l’outil au grand public. 

Dans un post, publié le 19 août 2019 sur le blog, l’équipe de chercheurs explique la technologie développée. Valentin Bazarevsky et Fan Zhange indiquent qu’ils ont utilisé plus de 30 000 clichés de mains en très haute définition pour alimenter l’apprentissage de l’IA. Au terme de cette étape, l’équipe de recherche a choisi 21 points clés que le logiciel est capable d’analyser en 3D sur une main.

Les chercheurs américains ont développé plusieurs « cadres » d’analyse : un détecteur de paume, un autre plus global sur la main et enfin un outil de reconnaissance gestuelle qui classe les gestes selon la configuration des points clés.

Grâce à ces trois niveaux de reconnaissance, l’IA est capable de distinguer les signes même avec un arrière-plan en mouvement et avec plusieurs mains en même temps. La vidéo postée sur le compte Twitter du laboratoire illustre toutes les potentialités du logiciel (voir ci-dessus). Une autre montre une partie de Chifoumi à trois joueurs (voir ci-dessous). 

source Google

Jeux de mains, jeux de malins 

Les chercheurs soulignent néanmoins qu’il est difficile de maîtriser le suivi précis des mouvements des mains et des doigts, notamment en raison des variations dans la vitesse et l’agilité des gestes d’un individu à l’autre. 

Et, comme le souligne Techcrunch, la langue des signes s’appuie aussi sur les mimiques du visage. Or, sur ce point le logiciel de Google n’est pas compétent. Sur son blog, l’équipe de recherche reconnaît d’ailleurs que l’algorithme ne représente encore qu’une « base à la compréhension de la langue des signes ». 

Source : Google via TechCrunch

🔴 Pour ne manquer aucune actualité de 01net, suivez-nous sur Google Actualités et WhatsApp.


Marion Simon-Rainaud