La filiale spécialisée dans l’intelligence artificielle de Google, Deepmind, s’est faite connaître du grand public après ses victoires contre les maîtres de go, un jeu qui restait jusque-là théoriquement hors de portée des ordinateurs. Deepmind frappe aujourd’hui dans un autre domaine : celui de la synthèse vocale.
Par le biais de WaveNet, une application qui s’appuie sur la puissance de Deepmind, Google a démontré qu’il est désormais possible à un système informatisé de générer des sons – et donc des phrases – humaines sans l’aide de ses créateurs.
Des sons générés à la volée
La plus grande surprise technique, c’est que Deepmind ne s’appuie sur aucune bibliothèque de son. Contrairement à votre GPS, Siri ou Cortana qui enchaînent les sons pré-enregistrés par des humains – « Après-le-rond-point-tournez-à-droite » (synthèse de parole par concaténation) ou la synthèse vocale historique de Windows (modélisation paramétrique), WaveNet génère des sons à partir de ce qu’il a « entendu » auparavant. S’il a donc bien besoin de l’homme, ce n’est plus pour lui fournir toute sa gamme de mots, mais uniquement pour apprendre comment parler.
Et le résultat est plus que bluffant : sur ces graphiques qui montrent comment des auditeurs ont classés le naturel des voix écoutées – voix artificielles par concaténation, paramétrique, Google WaveNet et une voix humaine – l’écart entre la voix humaine et WaveNet n’est pas très large et le rendu de ce dernier est bien supérieur à toutes les techniques précédemment employées.
Imitateur de génie
L’une des limites de la synthèse de parole par concaténation est qu’il faut une bibliothèque de sons pour un type de voix. C’est ainsi que de nombreux GPS proposent de télécharger des « kits » de voix, masculine, féminine, imitation de personnages célèbres, etc. Contrairement à cette technique qui impose de passer par la case enregistrement à chaque fois qu’on souhaite une nouvelle voix, WaveNet ne demande qu’à apprendre un nouveau timbre et un nouveau phrasé. Ou comment DeepMind/Wavenet pourrait devenir le plus grand imitateur de tous les temps. Une capacité qui rappelle un peu une célèbre scène du film Terminator 2…
https://www.youtube.com/watch?v=5rdh8gsQiJ8?t=57s
Cerise technique sur le gâteau, outre la voix WaveNet est aussi à même de simuler les instruments de musique tels que le piano, un défi qui serait bien inférieur à celui de reproduire la voix de l’homme. Qui peut le plus peut le moins, en somme.
Le son, pas (encore) le contenu
WaveNet ne s’intéresse pas encore au contenu mais uniquement à la génération du son : il est donc tributaire d’un autre programme pour la production de la structure des phrases. Compte tenu des précédentes démonstrations, il est très probable que Google « migre » rapidement la partie linguistique à proprement parler sur Deepmind dès qu’il en aura l’occasion.
Quant à l’arrivée d’une telle technologie sur nos téléphones, si c’est évidemment au programme, elle requiert pour l’heure trop de puissance de calcul pour être disponible sur le téléphone de Mr et Mme Toutlemonde. Mais vu les progrès réalisés, il s’agit sans doute plus une affaire d’années (de mois ?) que de décennies.
🔴 Pour ne manquer aucune actualité de 01net, suivez-nous sur Google Actualités et WhatsApp.