Passer au contenu

ChatGPT : derrière la magie, l’horreur pour des travailleurs kenyans payés une misère pour l’expurger des contenus violents

Une enquête du magazine Time décrit l’envers du décor de ChatGPT. Par le biais d’un prestataire établi en Afrique, OpenAI a entraîné son modèle en demandant à des salariés sous-payés d’étiqueter des milliers de textes atroces.

« La mission d’OpenAI est de s’assurer que l’intelligence artificielle générale profite à toute l’Humanité » peut-on lire sur le site du créateur de ChatGPT. Un bien belle déclaration de principe… qui est loin d’être une vérité pour l’instant.

Une longue et dérangeante enquête du Time révèle que l’entreprise tech la plus en vue du moment a eu recours aux services d’une entreprise, Sama, afin d’« apprendre » à ChatGPT ne pas répondre à ses utilisateurs de façon toxique ou violente.  Le siège de Sama, qui a aussi pour clients Google, Microsoft ou la Nasa, est à San Francisco… Mais les dizaines d’employés qui ont travaillé sur ChatGPT habitent loin, très loin de la Silicon Valley.

Ce sont en effet des travailleurs kenyans de Sama, payés selon Time entre 1,20 et 2 euros de l’heure, qui ont réalisé le « sale boulot » qui nous permet aujourd’hui d’utiliser ChatGPT sans que le bot se perde dans des délires toxiques, racistes, violents.

A lire aussi : Les IA génératives sont-elles le fruit du plus grand piratage d’œuvres d’art de l’histoire ?

Une IA « gendarme » entraînée avec le pire du Web

Pour bien comprendre ce que ces travailleurs payés une misère ont dû endurer, il faut d’abord expliquer rapidement comment ChatGPT est entraîné, et la technique d’OpenAI pour l’empêcher de générer un discours toxique. « L’intelligence » du bot vient de la collecte et de l’analyse de milliards d’ensembles de mots piochés sur le Web. Une somme qui, bien entendu, comporte aussi une quantité considérable de ce que les échanges humains produisent de pire… et qui se retrouve dans le modèle, une fois ce dernier entraîné.

Or, il est impossible pour OpenAI de vérifier ces éléments « à la main », cela prendrait des années. D’où l’idée d’intégrer à ChatGPT un mécanisme de protection, une sorte d’IA « gendarme » entraînée par des humains, capable de limiter les discours toxiques générés par le modèle. Pour cela, il faut la « nourrir » d’autres types de textes bien spécifiques : des discours haineux, sexuellement explicites, violents, toxiques…

Ce sont ces textes, extraits selon Time « des recoins les plus sombres d’Internet » qui ont été soumis aux travailleurs kenyans de Sama pour qu’ils soient « étiquetés ». Des contenus horribles, qui décrivent en détail des « des abus sexuels sur enfants, de la zoophilie, des meurtres, de la torture, de l’automutilation et de l’inceste ».

Les « étiqueteurs » de Sama que Time a pu interviewer ont dit avoir eu à décrire pour la machine entre 150 et 250 passages de ce genre par jour, comportant de 100 à 1000 mots à raison de 9 heures de travail quotidien. Sama évoque de son côté un chiffre plus bas, d’environ 70 contenus par jour. Qu’importe : la violence psychologique d’un tel travail peut être traumatisante. Un employé interrogé par le magazine parle même de « torture » en se remémorant avoir eu à étiqueter par exemple un contenu décrivant « un homme ayant des relations sexuelles avec un chien en présence d’un enfant ».

Devant la difficulté de ce travail, les salariés ont certes eu accès à un suivi psychologique fourni par Sama. Mais les employés interrogés estiment qu’il était largement insuffisant compte tenu des contenus auxquels ils ont été confrontés et de la productivité exigée.

Le contrat de trop

Au-delà de l’étiquetage de textes violents, OpenAI a passé un autre contrat avec Sama, qui a conduit à la fin précipitée de leur collaboration. En février 2022, le créateur de ChatGPT demande à son prestataire de collecter « des images sexuelles et violentes » pour un autre de ses projets, une « étape nécessaire pour rendre ses outils plus sûrs ». La firme s’est exécutée et a collecté 1 400 images, dont des clichés clairement illégaux, parmi lesquels des images de violences sexuelles sur enfants, de viols, de meurtres… Une collecte qui a rapidement inquiété la branche africaine, et mené à la fin précoce d’un contrat qui devait encore durer huit mois.

Les deux entreprises se renvoient la balle à ce sujet : Sama indique qu’OpenAI a envoyé des « instructions supplémentaires faisant référence à certaines catégories illégales » après la signature du contrat, qui l’ont poussé à le rompre et à licencier les responsables qui en avaient accepté les termes. +
De son côté, OpenAI ne conteste pas avoir reçu des images pédopornographiques, mais dément en avoir demandé. Dans un communiqué envoyé à Time, elle tente de se justifier : « Dès que Sama nous a dit qu’ils avaient tenté de collecter du contenu dans cette catégorie, nous avons indiqué qu’il y avait eu une mauvaise communication et que nous ne voulions pas de ce contenu. Et après avoir réalisé qu’il y avait eu une erreur de communication, nous n’avons pas ouvert ni affiché le contenu en question. »

La face sombre des IA

Cette enquête rappelle que derrière ces nouveaux outils qui nous ébahissent, il y a une réalité bien sombre qu’il est important d’avoir en tête : ils nécessitent le visionnage par des êtres humains de contenus abominables, qui peuvent avoir un impact sur leur santé mentale. C’est d’autant plus problématique que la main d’œuvre employée à cette tâche est à la fois mal rémunérée et très peu suivie psychologiquement. Un comble, quand les entreprises qui les emploient -toujours très discrètement- pèsent plusieurs dizaines de milliards de dollars. Pour rappel, OpenAI serait déjà valorisée 29 milliards de dollars.

De son côté, Sama a en tout cas décidé d’arrêter les frais. L’année dernière, elle avait déjà été épinglée par Time pour les conditions de travail déplorables de ses employés kenyans chargés de la modération des plates-formes de Meta. Il y a quelques jours, l’entreprise a annoncé qu’elle mettait fin à sa collaboration avec l’entreprise de Mark Zuckerberg, ainsi qu’aux travaux d’étiquetage pour les générateurs de texte. Elle se consacrera exclusivement désormais aux travaux « d’annotation de données de vision par ordinateur ».

Sama se retire donc du jeu. Mais, comme la Nature, le marché des IA génératives a horreur du vide. D’autres prendront sa place pour satisfaire les besoins croissants en petites mains nécessaires à l’entraînement de ces algorithmes. En définitive, peut-être que la conception d’IA éthiques et dépourvues de biais pourraient commencer très en amont. En protégeant ceux qui les font, dans les soutes du Net.

🔴 Pour ne manquer aucune actualité de 01net, suivez-nous sur Google Actualités et WhatsApp.

Source : Time


Eric LE BOURLOUT