Passer au contenu

ChatGPT : OpenAI déploie enfin le mode vocal avancé

OpenAI lance enfin le mode vocal avancé de ChatGPT. Ce nouveau mode doit permettre aux utilisateurs d’avoir des conversations plus naturelles et fluides avec l’IA. Pour compenser le retard pris, OpenAI a ajouté quelques améliorations à la fonctionnalité, dont cinq nouvelles voix, une mémoire et des instructions personnalisées.

En mai dernier, OpenAI a levé le voile sur ChatGPT 4o, une nouvelle version de son IA générative. Dans la foulée, la start-up a annoncé l’arrivée d’un mode vocal amélioré pour communiquer avec l’intelligence artificielle. Ce mode doit permettre aux utilisateurs d’échanger de manière plus naturelle, fluide et dynamique avec l’IA générative. Comme nous l’a montré OpenAI à Paris, ce mode fait de ChatGPT un véritable assistant vocal intelligent, à des années-lumière de Siri, Alexa ou l’Assistant Google.

« La voix avancée utilise les capacités audio natives de GPT-4o et propose des conversations plus naturelles et en temps réel qui captent les indices non verbaux, tels que la vitesse à laquelle vous parlez, et peut répondre avec émotion », explique OpenAI.

La firme américaine espérait proposer le mode vocal peu après l’annonce, autour du mois de juin 2024. Malheureusement, OpenAI a pris un peu de retard sur son calendrier. Début de l’été, la société de Sam Altman indiquait avoir besoin d’un mois de plus pour peaufiner « la capacité du modèle à détecter et à refuser certains contenus », améliorer « l’expérience utilisateur » et s’assurer que ChatGPT répond instantanément à tous ses interlocuteurs. Il aura finalement fallu trois mois à OpenAI pour préparer le déploiement du mode vocal amélioré.

À lire aussi : OpenAI menace d’interdire ChatGPT aux utilisateurs qui s’intéressent un peu trop à o1

Le mode vocal avancé de ChatGPT est en déploiement

Le numéro un de l’intelligence artificielle vient finalement d’annoncer l’arrivée de la « voix avancée » de ChatGPT. Comme prévu, le mode est réservé aux abonnés des offres ChatGPT Plus et Team. Pour converser avec l’IA, vous devez impérativement opter pour un abonnement payant. Pour mémoire, ChatGPT Plus revient à 24,50 dollars par mois. Les clients Entreprise et Education commenceront à recevoir l’accès au mode vocal la semaine prochaine.

Patience en Europe…

Si vous faites partie des abonnés payants, « vous verrez une notification dans l’application » quand le mode vocal amélioré sera disponible. Le mode « n’est pas encore disponible dans l’UE, au Royaume-Uni, en Suisse, en Islande, en Norvège et au Liechtenstein ». Les utilisateurs européens vont devoir s’armer de patience. Sur l’application iOS, un message d’avertissement indique cependant que le mode vocal avancé « est en route » et que le déploiement a bien commencé.

Pour en profiter dès que possible, on vous invite à mettre à jour votre application Android ou iOS. OpenAI explique sur son site web que la fonction est « disponible dans les applications mobiles iOS / Android à partir de la version 1.2024.261 ou ultérieure ». 

Les nouveautés du mode vocal

Avec humour, OpenAI présente ses excuses pour le retard accumulé au cours de l’été. Comme l’explique la publication sur X, ChatGPT peut dire « Désolé, je suis en retard » dans plus de 50 langues. La firme révèle aussi avoir mis au point cinq nouvelles voix pour enrichir le mode vocal de ChatGPT. Celles-ci ont été baptisées Arbor, Maple, Sol, Spruce et Vale.

Elles s’ajoutent aux voix déjà accessibles dans le mode vocal de base, à savoir Breeze, Juniper, Cove et Ember. Toutes ces voix se distinguent par un timbre et une élocution différente. On remarquera évidemment l’absence de Sky, la voix librement inspirée par l’actrice Scarlett Johansson. Accusé d’avoir volé la voix de la star, OpenAI a préféré suspendre « la voix de Sky » par respect pour elle.

Notez aussi l’absence du mode permettant à ChatGPT de voir et d’écouter son environnement pendant une conversation. À Paris, OpenAI avait montré qu’il était possible d’interroger l’IA sur des images fournies dans la conversation au cours du mode vocal. Sans raison apparente, et sans explication, OpenAI n’a pas inclus cette fonctionnalité, qui s’appuie sur capacités multimodales de GPT 4o. On imagine qu’elle fera l’objet d’une mise à jour ultérieure.

Par ailleurs, la start-up a revu l’interface du mode vocal depuis la présentation parisienne de mai dernier. Comme on peut le voir sur les vidéos publiées par OpenAI sur X, l’interface mise sur une sphère de couleur bleue pour montrer que ChatGPT écoute ou est en train de parler. Auparavant, la conversation vocale était illustrée par des petits points noirs en mouvements.

OpenAI précise aussi avoir fait en sorte que les instructions personnalisées, l’une des fonctionnalités phares de ChatGPT, fonctionnent avec le mode vocal. Ces instructions permettent aux utilisateurs de personnaliser la manière dont le chatbot répond à leurs questions. C’est un outil très efficace pour gagner du temps et calibrer les réponses générées par l’IA. OpenAI ajoute aussi que le mode vocal de ChatGPT dispose d’une mémoire, ce qui lui permet de se souvenir d’informations données en amont dans la conversation. Enfin, la firme a « également amélioré la vitesse de conversation, la fluidité et les accents dans certaines langues étrangères ». 

🔴 Pour ne manquer aucune actualité de 01net, suivez-nous sur Google Actualités et WhatsApp.


Florian Bayard
Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *