Passer au contenu

Les nouvelles voix de ChatGPT commencent à se faire entendre

Les capacités vocales avancées de ChatGPT arrivent, après un hiatus de quelques semaines pour serrer les boulons — et éviter une autre polémique avec une voix connue. Les abonnés ChatGPT Plus pourront tous en bénéficier d’ici cet automne, mais le déploiement a d’ores et déjà commencé.

Sur iOS et Android, l’application ChatGPT est déjà équipée d’un système d’écoute et de synthèse vocale plutôt performant, et en français. Mais GPT-4o, le dernier modèle de langage le plus performant d’OpenAI, améliore encore les choses pour cette fonction vocale. Les conversations sont plus naturelles et en temps réel ; elles peuvent être interrompues à tout moment. La voix synthétique peut aussi détecter les émotions… et y répondre.

4 voix de synthèse seront proposées

La démonstration faite durant la présentation de GPT-4o au printemps n’est pas tombée dans l’oreille d’une sourde. Scarlett Johansson, l’actrice qui avait prêté sa voix à la (fausse) assistante vocale du film « Her », avait en effet menacé OpenAI d’une plainte : il se trouve que « Sky », une des voix de ChatGPT, lui ressemblait beaucoup. L’affaire s’est terminée par la suspension de « Sky », sans qu’il y ait de suite judiciaire.

Lire OpenAI suspend l’une des voix de ChatGPT sur fond de conflit avec Scarlett Johansson

Cette affaire explique peut-être pourquoi OpenAI a préféré prendre son temps avant de déployer les fonctions vocales avancées du bot. Le déploiement de la version alpha a été lancé hier auprès d’une poignée d’utilisateurs de ChatGPT Plus, la formule payante du service. La fonction sera étendue progressivement au cours des prochaines semaines, et elle sera entièrement disponible à tous les abonnés à l’automne prochain.

Les utilisateurs actuels peuvent toujours surveiller une notification dans l’app ChatGPT, ou un courriel d’OpenAI leur annonçant la bonne nouvelle.

Durant ces dix derniers mois, OpenAI a testé les capacités vocales de ChatGPT avec plus de 100 testeurs externes parlant 45 langues dans 29 régions différentes. Ces expérimentations ont permis de réduire la sélection de voix à quatre, créées avec des acteurs vocaux. L’entreprise s’est assurée que le bot ne puisse pas « imiter les voix d’autres personnes, qu’il s’agisse d’individus ou de personnalités publiques ». La leçon a été apprise, visiblement.

La sécurité a également été renforcée pour détecter et refuser certains contenus ; des filtres « reconnaîtront et bloqueront toutes les demandes de génération de contenus musicaux et audio protégés par des droits d’auteur ». À tester, bien sûr.

L’entreprise explique également qu’elle a renforcé les capacités du modèle pour supporter « des millions de conversations vocales simultanées et en temps réel, tout en maintenant une faible latence et une qualité élevée. » Il est vrai aussi que toute cette technologie coûte cher !

Les fonctionnalités vidéo et le partage d’écran, elles aussi présentées en mai dernier, seront lancées à une date ultérieure. Un point d’étape sera publié au mois d’août.

🔴 Pour ne manquer aucune actualité de 01net, suivez-nous sur Google Actualités et WhatsApp.


Mickaël Bazoge
Votre opinion
  1. Je connais un système vocal encore plus performant. Parler avec des personnes réelles. Vous verrez elles seront capables de répondre.

Les commentaires sont fermés.