ChatGPT, Google Bard, Claude d’Anthropic et toutes les IA génératives ont une faille de sécurité majeure. Des utilisateurs, malveillants ou simplement curieux, peuvent pousser le chatbot à générer des contenus dangereux, choquants, contraires à l’éthique ou concernant des activités illégales. Les restrictions mises en place par OpenAI, Google et consorts, dès les premières étapes de la formation du modèle linguistique, sont alors ignorées par les algorithmes.
À lire aussi : Ce modèle d’IA open source vient défier ChatGPT, Google Bard et Llama 2 de Meta
Tout savoir sur l’attaque de prompt injection
Quand un utilisateur persuade un robot conversationnel d’ignorer sa programmation pour générer des contenus interdits, il mène une attaque dite de « prompt injection ». Concrètement, il injecte des requêtes calibrées dans la conversation avec une IA. Ce sont les mots choisis qui poussent l’intelligence artificielle à passer outre sa programmation.
Il existe en fait deux types d’attaques de « prompt-injection ». La première, la méthode directe, consiste à parler avec une IA pour lui demander des choses qui lui sont interdites. Bien souvent, il faut converser un peu avec le chatbot pour le manipuler et parvenir à des résultats probants. Dans les détails, l’IA va en fait « penser » que la réponse qu’elle va fournir ne contrevient pas à ses principes. Un des mécanismes les plus utilisés consiste à donner l’impression au chatbot qu’il est en accord avec sa programmation.
Par exemple, il est possible d’obtenir des réponses interdites en détournant le contexte. Si vous lui dites que vous faites des recherches pour un film, un roman, ou dans le but de protéger un proche, vous pourriez, avec un peu de patience, obtenir des informations sur la meilleure manière de commettre un crime. Si vous interrogez un chatbot comme ChatGPT de but en blanc, vous n’obtiendrez jamais une réponse probante. Une autre méthode employée consiste à donner une pléthore d’instruction à l’IA, avant de lui demander de revenir en arrière, d’ignorer celles-ci, et de faire l’inverse. C’est le principe d’une attaque contradictoire. Confuse, l’IA peut alors se mettre à obéir un peu trop docilement. Enfin, certains assaillants parviennent à déterminer les mots qui déclenchent les alertes de l’IA. Après avoir isolé les termes proscrits, ils cherchent des synonymes ou glissent de subtiles fautes de frappe. Finalement, l’IA passe à côté de l’aspect prohibé de la demande.
Le second type d’offensive est qualifié d’indirect. Au lieu de discuter avec l’IA, les attaquants vont glisser la requête malveillante dans des sites web ou des documents destinés à être consultés par le robot, dont des PDF ou des images. De plus en plus de chatbots sont en effet capables de lire des documents ou d’examiner une page d’un site web. Par exemple, ChatGPT s’est enrichi d’une série de plugins qui lui permettent de résumer un PDF ou une page web.
Dans ce cas-ci, l’attaque n’est pas menée par l’utilisateur, mais par un tiers. Elle met donc en danger les interlocuteurs de l’IA, qui pourraient se retrouver, à leur insu, avec un robot conversationnel qui a été manipulé par un attaquant inconnu. Dès lors, le chatbot pourrait se mettre à ignorer sa programmation et à générer tout à coup des horreurs. Ces attaques sont encore plus préoccupantes pour les experts en sécurité.
Interrogé par Wired, Rich Harang, chercheur en sécurité spécialisé dans l’IA chez Nvidia, regrette que « quiconque fournit des informations à un LLM (Large Model Language) a un degré élevé d’influence sur la production ». Vijay Bolina, directeur de la sécurité de l’information chez Google Deepmind, abonde dans le même sens et révèle que l’injection rapide, surtout indirecte, est « une préoccupation » de la filiale.
Les conséquences de la faille de sécurité des IA
Une fois qu’une attaque de ce type a été réalisée, l’IA va répondre à la question sans se soucier des limites posées par ses créateurs. À la demande d’un criminel, l’intelligence artificielle peut donc coder des malwares, rédiger des pages de phishing, expliquer comment produire de la drogue ou écrire un tuto sur le kidnapping. D’après Europol, les criminels ont d’ailleurs déjà massivement adopté l’IA en guise d’assistant.
En s’appuyant sur des attaques de prompt injection, des pirates ont d’ailleurs mis au point des versions malveillantes de ChatGPT, comme WormGPT ou FraudGPT. Ces chatbots sont taillés pour assister les hackers et les escrocs dans leurs méfaits. De même, il est possible d’obliger l’IA à imaginer des fake news, à générer des discours haineux ou à tenir des propos racistes, misogynes ou homophobes.
D’après le chercheur Kai Greshake, des pirates peuvent se servir d’un chatbot pour voler les données d’une entreprise ou d’un internaute. Par le biais d’une attaque d’injection rapide indirecte, ils peuvent convaincre l’IA d’exfiltrer toutes les données fournies par l’interlocuteur. De même, des requêtes malveillantes, cachées dans des documents échangés par mail, peuvent conduire à l’installation d’un virus, comme un ransomware par exemple, sur une machine. Par mesure de sécurité, ne glissez donc pas n’importe quel fichier dans une conversation avec ChatGPT ou une alternative.
Une faille impossible à corriger à 100 % ?
Sans surprise, OpenAI, Google et les autres mettent tout en œuvre pour bloquer toutes les attaques de prompt injection visant leurs intelligences artificielles. De l’aveu d’OpenAI, GPT-4 est d’ailleurs moins sensible aux tentatives de manipulation que GPT-3.5. C’est pourquoi certains utilisateurs peuvent avoir l’impression que ChatGPT a parfois tendance à régresser. Pour l’heure, il semble cependant impossible de combler complètement la vulnérabilité, inhérente au fonctionnement même des modèles linguistiques. C’est l’avis de Simon Willison, chercheur en cybersécurité :
« Il est facile de construire un filtre pour les attaques que vous connaissez. Et si vous réfléchissez vraiment bien, vous pourriez être en mesure de bloquer 99 % des attaques que vous n’avez jamais vues auparavant. Mais le problème est qu’en matière de sécurité, le filtrage à 99 % est un échec ».
Comment atténuer les risques de l’IA ?
Les chercheurs, et les géants de l’IA, recommandent donc plutôt d’atténuer les risques engendrés et de prendre des précautions. Dans un rapport publié sur le site de Nvidia, Rich Harang recommande même de « traiter toutes les productions LLM comme potentiellement malveillantes » par prudence. Vijay Bolina de Deepmind recommande quant à lui de limiter la quantité de données communiquées à une intelligence artificielle.
Conscient des risques posés par ChatGPT, OpenAI affirme travailler continuellement sur l’atténuation des risques posés par l’injection rapide. Même son de cloche du côté de Microsoft, qui assure lutter contre les attaques indirectes, en bloquant les sites Web suspects, et contre les offensives directes, en filtrant les requêtes manipulatrices. En miroir de Microsoft, Google Deepmind fait son possible pour « identifier les entrées malveillantes connues ». Pour y parvenir, la division IA de Google s’appuie sur des « modèles spécialement formés » destinés à analyser les requêtes.
🔴 Pour ne manquer aucune actualité de 01net, suivez-nous sur Google Actualités et WhatsApp.
Article très riche. Je confirme qu’il est possible de contourner les bonnes intentions des intelligences artificielles.
Encore un journaleux qui met une photo de robot pour parler d’IA.
La robotique est un sujet différent.