Passer au contenu

Microsoft dévoile une IA si puissante qu’il n’ose pas la proposer aux utilisateurs

Microsoft dévoile VALL-E 2, une nouvelle intelligence artificielle conçue pour imiter une voix humaine avec une précision inégalée. Redoutant que sa technologie soit exploitée par des individus malveillants, l’éditeur a choisi de ne pas proposer l’IA au grand public.

Microsoft vient de lever le voile sur VALL-E 2, une nouvelle intelligence artificielle capable d’imiter une voix humaine. Comme son nom l’indique, il s’agit de la seconde itération de VALL-E, un modèle de synthèse vocale d’une grande efficacité. Annoncée en janvier 2023, l’IA était capable d’imiter la voix d’un être humain en seulement trois secondes.

Cette seconde mouture se veut encore plus efficace. D’après Microsoft, il est impossible de différencier le deepfake vocal produit par VALL-E 2 de la voix d’une véritable personne. L’IA a atteint « la parité humaine pour la première fois », se félicite d’éditeur américain sur son site web. Jusqu’ici, les productions de l’IA pouvaient encore être repérées grâce à des petites imperfections dans la formulation ou l’intonation.

Pour améliorer le rendu de VALL-E, Microsoft a ajouté deux innovations dans la manière dont l’IA traite les données vocales. Ces changements de conception permettent à l’intelligence artificielle de synthétiser la parole avec précision et naturel, « même pour les phrases qui sont traditionnellement difficiles en raison de leur complexité ou de leurs phrases répétitives ».

À lire aussi : Pourquoi les victimes de deepfakes peinent à faire disparaître ces contenus du Web

Le danger des deepfakes vocaux

Microsoft estime que VALL-E 2 pourrait être utilisé dans le cadre des secteurs, comme « l’apprentissage éducatif, le divertissement, le journalisme, le contenu auto-écrit, les fonctionnalités d’accessibilité, les systèmes de réponse vocale interactifs, la traduction, le chatbot ». Par ailleurs, l’entreprise entrevoit la possibilité de se servir de l’IA pour aider les personnes en situation de handicap.

Sans surprise, Microsoft reste conscient des risques posés par son générateur de voix. En exploitant un modèle comme VALL-E, un individu malveillant serait en mesure d’usurper la voix d’un proche, d’une célébrité ou d’un homme politique lors d’un appel téléphonique. Il suffirait de passer un coup de fil pour convaincre quelqu’un de verser de l’argent sur un compte ou de communiquer des informations sensibles. Dans le communiqué, Microsoft indique avoir conscience des « risques potentiels dans l’utilisation abusive du modèle, tels que l’usurpation d’identité vocale ou l’usurpation d’un orateur spécifique ».

C’est la porte ouverte à tous les abus, d’autant que de nombreux cybercriminels exploitent déjà la technologie deepfake pour orchestrer des cyberattaques. Les contenus générés par l’IA ont déjà permis à des escrocs de réaliser des fraudes financières d’envergure. Citons également les risques en matière de désinformation.

Par précaution, Microsoft a donc refusé de proposer l’IA aux internautes. Il n’est « pas prévu d’intégrer VALL-E 2 dans un produit ou d’élargir l’accès au public » pour le moment. VALL-E 2 est uniquement conçu à des fins de recherche.

🔴 Pour ne manquer aucune actualité de 01net, suivez-nous sur Google Actualités et WhatsApp.

Source : Microsoft


Florian Bayard
Votre opinion
  1. Déjà conseillé, peut-être demain un automatisme lors des dialogues audiovisuels : demander à son interlocuteur pour preuve de son identité une information connue des deux et que des deux protagonistes ou, mieux, comme dans les films d’espionnage, commencer une phrase, attendre la réponse, répondre à la réponse : “- Machiavel était si retors, – Retors mais efficace – Ne confondons pas éthique et intelligence”. Pause “- Bien, ravi de t’entendre”. Confiance ? Reste que la communication pourrait bien être écoutée … et puis, enfin, dans quelles conditions le protocole des phrases serait-il établi, dans un lieu éculé, en forêt, après s’être assuré qu’aucun micro n’ait été logé dans le coin d’une couture ? Diantre !
    Note : ne pas utiliser cet exemple, maintenant qu’il est rendu publique 🙂

    1. Bien vu pour un dialogue de personnes, mais pour un discours, quel serait l’information demandée, et qui/quoi serait le valideur ?

      Est-ce que l’analyse textuelle du discours suffirait à authentifier, ou non, un discours ?
      C’est quasi effrayant si l’IA est capable, à ce point, d’imiter un discours d’un être humain.

  2. Il y a toujours moyen d’incorporer a une IA imitatrice de voie un systeme permettant de signaler que cela a été fait par une IA.

  3. Mais pourquoi ? Ça peut être mal utilisé mais je l’invente quand même ? Et seul une sélection de personnes pourront y avoir accès, mais tant que j’en fais partie ? L’utilisation pour le handicap est une belle excuse également, tant d’autres choses à faire et mettre en place avant une imitation de voix humaine…
    L’homme est le seul animal à réussir à trouver 10 000 moyens de s’auto-detruir… Quelle tristesse

Les commentaires sont fermés.