Passer au contenu

Des images d’enfants ont été utilisées sans autorisation pour entraîner des IA

Une ONG a trouvé, dans un ensemble de données open-source utilisé par des développeurs d’IA génératives pour entraîner leurs outils, 170 photographies d’enfants brésiliens, postées entre 1995 et 2023 sur le Web. Problème : ces images – parfois accompagnées de leurs véritables noms et prénoms – ont servi à former des IA sans que les principaux intéressés aient consenti à une telle utilisation, et sans qu’ils en soient même informés. Le phénomène pourrait concerner de nombreux autres mineurs, dans le monde entier, alerte l’association. 

Et si les photos de vos enfants, postées il y a des années sur le Web, servaient à entraîner des intelligences artificielles génératives ? Human Rights Watch, dans un article publié lundi 10 juin, explique avoir trouvé 170 photos et données personnelles d’enfants brésiliens dans « Laion-5B », un ensemble de données open source utilisé par les start-up d’IA pour entraîner leurs outils.

Stability AI s’est par exemple servi de ce jeu de data pour développer Stable Diffusion, une IA qui permet de générer des images à partir d’un simple prompt. Selon l’association de défense des droits de l’homme, les 170 photographies identifiées ont été récupérées à l’insu des principaux intéressés, et sans leur consentement.

Des photos avec les noms et prénoms des enfants

Si ce chiffre, 170, peut sembler relativement peu élevé, il ne serait que la partie émergée de l’iceberg : l’ONG précise n’avoir analysé qu’une infime partie des données. Seul 0,0001 % des 5,85 milliards d’images et de légendes contenues dans cet ensemble de données ont été passées au crible. Ces images proviendraient de blogs personnels ou de blogs dédiés à la maternité ou à l’éducation. D’autres ont été publiées sur des sites de partage de photos et de vidéos. Certaines sont issues de vidéos YouTube partagées avec des proches – des récupérations contraires aux conditions d’utilisation de YouTube, précise Wired, le 10 juin dernier.

Pour certaines photos qui auraient été diffusées entre 1995 et 2023, on retrouve, outre le lieu et la date de prise, le nom et prénom des enfants dans la légende ou au sein de son URL. De quoi constituer une menace pour la vie privée de ces derniers : les IA génératives peuvent en effet reproduire à l’identique le matériel sur lequel elles ont été entraînées. Utilisées par des acteurs malveillants, ces images pourraient aussi permettre de créer des « clones numériques de ces enfants » à des fins pédopornographiques, écrit l’ONG.

Pour Hye Jung Han, chercheuse au sein de l’association qui a travaillé sur ce dossier, « les enfants ne devraient pas avoir à vivre dans la crainte que leurs photos soient volées et utilisées contre eux », rapporte l’ONG. Selon cette dernière, des images similaires, provenant d’autres pays, pourraient aussi faire partie de cet ensemble de données.

Des images retirées mais pas supprimées du Web

Le problème semble avoir été pris en compte par Large-scale Artificial Intelligence Open Network (Laion), l’organisation à but non lucratif allemande qui met à disposition des chercheurs ce jeu de données. Interrogée par Human Rights Watch, l’organisation a confirmé que les images identifiées par l’équipe de Hye Jung Han existaient bel et bien : l’ONG a accepté de les retirer.

L’ONG allemande a aussi rappelé qu’elle avait décidé de retirer Laion-5B en raison d’une étude de l’université américaine Stanford. En décembre dernier, des chercheurs avaient montré que la base de données comportait plus d’un millier d’images pédopornographiques. L’organisation a ajouté qu’elle travaillait actuellement avec « Internet Watch Foundation, le Centre canadien pour la protection de l’enfance, l’université de Stanford et Human Rights Watch pour supprimer toutes les références connues à des contenus illégaux ».

L’ONG allemande conseille aux enfants et à leurs parents et tuteurs de supprimer toutes les photos qui se trouvent sur le Web :  ce qui constituerait la protection la plus efficace contre les possibles utilisations abusives, plaide-t-elle – une protection loin d’être absolue. Car même si les données ont été supprimées, et que Laion-5B a été retiré, des copies ont pu être faites. « La suppression des liens d’un ensemble de données ne supprime pas ce contenu du Web », a souligné Nate Tyler, son porte-parole, à nos confrères de Wired. Comprenez : ces images peuvent toujours être trouvées et utilisées, même si ce n’est pas par l’intermédiaire de Laion.

Pour Hye Jung Han citée par Human Rights Watch, il faut que les législateurs protègent davantage les mineurs de l’utilisation de leurs images et de leurs données personnelles par l’IA : « Je pense que les enfants et leurs parents ne devraient pas avoir à assumer la responsabilité de protéger les enfants contre une technologie contre laquelle il est fondamentalement impossible de se protéger ». 

🔴 Pour ne manquer aucune actualité de 01net, suivez-nous sur Google Actualités et WhatsApp.

Source : Rapport de Human Rights Watch du 10 juin 2024


Stéphanie Bascou