Passer au contenu

Comment une intelligence artificielle est devenue bilingue… sans dictionnaire

Deux groupes de chercheurs ont réussi à traduire des textes sans recourir au départ à une base de données bilingue. Une prouesse.

Les débuts de Google Traduction sont célèbres. Le service a pioché dans les gigantesques bases de données des documents bilingues de l’ONU et du Parlement européen. Il y a appliqué ensuite une méthode statistique pour établir des modèles servant à traduire ces mêmes textes dans d’autres idiomes.

Une méthode critiquée pour ses résultats parfois inintelligibles et qui semble aujourd’hui complètement dépassée. Elle a d’ailleurs été abandonnée par Google lui-même l’année dernière, au profit d’un réseau neuronal prenant davantage en compte des ensembles de phrase et leur contexte. Mais il semble toujours aussi complexe de s’attaquer aux langues rares ou à celles qui sont peu traduites comme le souligne Science.

Sans intervention humaine

Deux articles scientifiques, pilotés l’un par un chercheur français de Facebook et l’autre par l’Université de San Sebastian en Espagne, viennent de passer un cap en abandonnant purement et simplement l’apprentissage automatique supervisé, lorsque la bonne réponse est fournie à l’ordinateur pour faciliter sa formation. Plus question, donc, de produire des règles à partir d’un gros volume de data bilingue dont la traduction a été assurée préalablement par un humain. L’originalité de leur démarche repose sur le recours à de l’apprentissage non supervisé.
La méthode consiste à regrouper les données par similarités pour comprendre la structure d’une langue, le tout sans aucune référence humaine pour point de départ. 
« Imaginez que vous donniez à une personne plein de livres en chinois et en arabe, aucun n’étant le même », a expliqué l’un des chercheurs Mikel Artetxe au site Science. « La personne doit apprendre à traduire du chinois en arabe sans aucun recoupement ». Cela semble impossible et pourtant, ces scientifiques l’ont fait.

Vérifications et progrès

A partir d’un petit corpus de documents, l’ordinateur a cartographié les points communs à la manière d’un atlas routier géant qui identifieraient des villes portant des noms différents suivant la langue. Il ne reste alors plus qu’à superposer les différents atlas pour obtenir un dictionnaire bilingue de façon totalement automatique.
Pour s’entraîner, la machine s’essaye à la traduction inverse. C’est-à-dire qu’elle vérifie ses résultats en retraduisant le  texte vers sa langue originale. Elle ajoute à cela du débruitage. A savoir qu’elle traduit la phrase, puis y ajoute du “bruit”, en réarrangeant ou supprimant des mots, par exemple. Elle retraduit alors la phrase dans sa langue d’origine et affine la précision de la traduction jusqu’à obtenir des résultats quasi identiques.

Pour le moment les performances ainsi obtenues restent largement inférieures à celles de Google Traduction. Ainsi, la nouvelle méthode obtient un score de précision de 15 là où l’outil de Google atteint 40 et qu’un traducteur humain dépasse les 50. Mais les auteurs des articles sont confiants dans le potentiel de leur méthode qui pourrait être améliorée avec du semi-supervisé, ce qui reviendrait à ajouter quelques milliers de phrases bilingues pour faciliter la tâche de l’IA.

Si cette nouvelle approche est encore balbutiante, le résultat est suffisamment bon et étonnamment pertinent pour que les chercheurs soient persuadés d’avoir trouvé un nouvel axe de recherche. “Cette approche pointe vraiment dans la bonne direction”, s’enthousiasme Mikel Artexte.

🔴 Pour ne manquer aucune actualité de 01net, suivez-nous sur Google Actualités et WhatsApp.


Amélie Charnay