GPT-3, une intelligence artificielle qui génère du texte et pourrait un jour surpasser les humains

Nous sommes peut-être en train de vivre une nouvelle révolution en matière d’intelligence artificielle. Les progrès de traitement et de reconnaissance d’images avaient marqué les années 2012, ouvrant la voie à la reconnaissance faciale ou la voiture autonome. Aujourd’hui, c’est la rédaction de texte qui connaît un bouleversement sans précédent. En témoigne GPT-3, la troisième version logicielle d’un générateur de texte de la société OpenAI, fondée en 2015 par Elon Musk.

Une quantité considérable de données

Le programme a été formé sans supervision à partir d’un corpus immense de textes provenant du Web et de livres numérisés. À titre d’exemple, l’intégralité des articles de Wikipédia en anglais (soit six millions d’articles) ne représenterait que 0,6% des données avec lesquelles il s’est entraîné. Cela comprend aussi bien des recettes de cuisine, que des fictions ou des manuels d’informatique. Mais GPT-3 n’a été entraîné à accomplir aucune tâche spécifique.

Cet outil de saisie semi-automatique a été mis à disposition dans sa version bêta il y a quelques jours. Des chercheurs s’en sont aussitôt emparés pour mener diverses expériences avec des résultats très impressionnants de par leur cohérence. Certains ont réussi à générer du code informatique, des articles scientifiques, un chatbot faisant dialoguer des personnages historiques, des pastiches littéraires d’Emilie Dickinson et de T.S. Eliot, ou ont encore obtenu des diagnostics médicaux comme on peut le voir ci-dessous.

So @OpenAI have given me early access to a tool which allows developers to use what is essentially the most powerful text generator ever. I thought I’d test it by asking a medical question. The bold text is the text generated by the AI. Incredible… (1/2) pic.twitter.com/4bGfpI09CL

— Qasim Munye (@qasimmunye) July 2, 2020

Des réserves peuvent toutefois être formulées. The Verge souligne notamment que les scientifiques n’ont partagé que ce qui fonctionnait. Or, certains tests ont produit des réponses farfelues. Toutefois, certains experts pensent que le programme s’améliorera à chaque fois que ses bases de données changeront d’échelle. Jusqu’à aboutir un jour à une intelligence artificielle générale, c’est-à-dire ayant les mêmes capacités cognitives que les humains.

Si GPT-3 peut aboutir à ce type de résultat, c’est parce qu’il s’est formé sans supervision. Cela lui a permis d’engranger une quantité de données rapidement et à une échelle inégalée, car il s’est passé d’un tri fastidieux et coûteux opéré par des humains. Or, cette force est aussi une faiblesse.

Un corpus biaisé

GPT-3 s’est nourri aussi bien d’articles scientifiques que de contenus racistes, complotistes ou sexistes non filtrés. Ses bases de données sont donc biaisées.

Le Français Jérôme Pesenti, qui travaille pour Facebook, a donné sur Twitter des exemples effrayants de posts générés par GPT-3 à partir de mots clefs comme juif, noir, femme ou holocauste.

#gpt3 is surprising and creative but it’s also unsafe due to harmful biases. Prompted to write tweets from one word – Jews, black, women, holocaust – it came up with these (https://t.co/G5POcerE1h). We need more progress on #ResponsibleAI before putting NLG models in production. pic.twitter.com/FAscgUr5Hh

— Jerome Pesenti (@an_open_mind) July 18, 2020