En plus des 103 langues de Translate, Google pourrait ajouter une nouvelle corde à son arc linguistique : la langue des signes. Dans son laboratoire Google a développé une intelligence artificielle (IA) capable de reconnaître les signes effectués par les doigts d’une main à l’aide d’une image vidéo. Si d’autres ont déjà développé cette technologie comme SignAll ou Kintrans, pour la première fois elle devient utilisable sur smartphone.
« Notre méthode permet d’obtenir des performances en temps réel sur un téléphone mobile » expliquent les chercheurs Valentin Bazarevsky et Fan Zhang en charge du programme de développement chez Google.
30 000 photos de main en haute définition
Les scientifiques ont d’abord présenté l’IA au Computer Vision and Pattern Recognition (CVPR) 2019 en juin, en Californie. Mais, ce n’est que très récemment qu’ils ont présenté les avancées de l’outil au grand public.
Dans un post, publié le 19 août 2019 sur le blog, l’équipe de chercheurs explique la technologie développée. Valentin Bazarevsky et Fan Zhange indiquent qu’ils ont utilisé plus de 30 000 clichés de mains en très haute définition pour alimenter l’apprentissage de l’IA. Au terme de cette étape, l’équipe de recherche a choisi 21 points clés que le logiciel est capable d’analyser en 3D sur une main.
New research leverages @TensorFlow Lite with MediaPipe to enable on-device, real-time hand tracking and gesture recognition, critical for applications such as #AR and on-device #signlanguage understanding. Check it out with the #opensource pipeline here → https://t.co/f21XoRoh7e pic.twitter.com/ianPFrIiHY
— Google AI (@GoogleAI) August 19, 2019
Les chercheurs américains ont développé plusieurs « cadres » d’analyse : un détecteur de paume, un autre plus global sur la main et enfin un outil de reconnaissance gestuelle qui classe les gestes selon la configuration des points clés.
Grâce à ces trois niveaux de reconnaissance, l’IA est capable de distinguer les signes même avec un arrière-plan en mouvement et avec plusieurs mains en même temps. La vidéo postée sur le compte Twitter du laboratoire illustre toutes les potentialités du logiciel (voir ci-dessus). Une autre montre une partie de Chifoumi à trois joueurs (voir ci-dessous).
Jeux de mains, jeux de malins
Les chercheurs soulignent néanmoins qu’il est difficile de maîtriser le suivi précis des mouvements des mains et des doigts, notamment en raison des variations dans la vitesse et l’agilité des gestes d’un individu à l’autre.
Et, comme le souligne Techcrunch, la langue des signes s’appuie aussi sur les mimiques du visage. Or, sur ce point le logiciel de Google n’est pas compétent. Sur son blog, l’équipe de recherche reconnaît d’ailleurs que l’algorithme ne représente encore qu’une « base à la compréhension de la langue des signes ».
Source : Google via TechCrunch
🔴 Pour ne manquer aucune actualité de 01net, suivez-nous sur Google Actualités et WhatsApp.