IA : Anthropic accusé de collecter sans autorisation des contenus de sites Web

Anthropic, la société qui a développé Claude, un des concurrents de ChatGPT, pioche-t-elle allègrement dans les sites Web pour entraîner son IA générative, sans respecter les conditions générales d’utilisation des plateformes ? C’est ce dont l’accuse le PDG d’iFixit, une entreprise présentée comme « la plus grande base d’informations sur les réparations » en ligne. Kyle Wiens a affirmé sur son compte X, le 24 juillet dernier, que le crawler de la start-up, le robot explorateur du Web de Claude, avait frappé les serveurs de son site « un million de fois en 24 heures » : une collecte faite en totale violation de ses conditions générales d’utilisation.

Ces dernières stipulent en effet que « la reproduction, la copie ou la distribution de tout contenu, matériel ou élément de conception sur le (site Web de l’entreprise) à toute autre fin, y compris l’entraînement d’un modèle d’apprentissage automatique ou d’IA, est strictement interdite sans l’autorisation écrite préalable et expresse d’iFixit ». Ces conditions générales interdisent bien le « scraping » (qui signifie « grattage » ou « raclement »), une extraction de contenu qui permet de collecter des données à partir d’un site Web, pour ensuite constituer une base qui servira à entraîner les modèles de langage.

À lire aussi : Droit d’auteur : où en est-on dans la bataille qui oppose créateurs et artistes aux développeurs d’IA ?

« Vous prenez notre contenu sans payer, vous mobilisez nos ressources de développement »

« Si l’une de ces demandes avait accédé à nos conditions de service, elle vous aurait dit que l’utilisation de notre contenu est expressément interdite. (…) », a précisé le PDG d’iFixit, Kyle Wiens, sur X. « Vous ne prenez pas seulement notre contenu sans payer, vous mobilisez nos ressources de développement. Si vous voulez avoir une conversation sur la licence de notre contenu pour un usage commercial, nous sommes là », a-t-il ajouté.

iFixit comprend des milliers de pages allant des guides de réparation aux forums et aux questions réponses : des contenus dans lesquels Claude aurait pioché massivement. « Le taux de scraping était si élevé qu’il a déclenché toutes nos alarmes et mobilisé notre équipe de développement », a précisé Kyle Wiens chez nos confrères de The Verge. Dans un article de blog publié quelques jours plus tôt, Anthropic expliquait que « selon les normes de l’industrie, (l’entreprise basée à San Francisco et fondée par d’anciens cadres d’OpenAI, NDLR) utilise une variété de sources de données pour le développement de modèles, telles que des données publiques disponibles sur Internet et recueillies par le biais d’un robot d’indexation ». Et « pour ne pas être exploré par le robot de Claude, il faut modifier le fichier robots.txt » et ajouter une extension spécifique, ajoute l’entreprise. Ce type de fichiers indique généralement aux robots d’exploration du Web les pages auxquelles ils peuvent ou ne peuvent pas accéder.

Une extension que s’est empressé d’ajouter iFixit. L’entreprise spécialisée dans la réparation en ligne a ensuite confirmé qu’une fois cette extension installée, le crawler d’Anthropic s’était bien arrêté. Jennifer Martinez, la porte-parole de la start-up interrogée par The Verge, a ensuite précisé que l’entreprise respectait « le fichier robots.txt. Notre robot d’exploration a respecté ce signal lorsque iFixit l’a mis en œuvre ». Cela signifie que les conditions générales d’utilisation d’un site Web ne suffisent pas à arrêter le robot d’Anthropic. Il faut explicitement bloquer les « crawlers » de cette IA générative pour éviter de voir ses données finir dans ses bases d’entraînements de Claude.

À lire aussi : Anthropic revendique le meilleur modèle de langage face à OpenAI et Google

Modifier ses CGU ne serait d’aucune efficacité

Le cas d’iFixit est loin d’être isolé : selon une étude publiée par Data Provenance Initiative, qui se présente comme « un collectif de chercheurs indépendants et universitaires qui consacrent bénévolement leur temps à des projets de transparence des données », de nombreux sites Web ont modifié leurs conditions générales d’utilisation (CGU) pour interdire explicitement le scraping de leurs contenus. Mais cela ne serait en pratique d’aucune efficacité, à moins qu’un site web ne veuille poursuivre en justice l’entreprise d’intelligence artificielle.

Interrogé par 404Media, l’auteur principal de l’étude, Shayne Longpre, a précisé que seules les CGU des très grandes plateformes semblaient être respectées – à savoir, celles qui ont, peut-être, intenté des actions en justice. Mais les autres sont ignorées par les entreprises d’IA, a-t-il ajouté. Les sociétés Read the Docs et Freelancer.com ont aussi rapporté avoir fait l’objet d’un scraping important de la part du crawler d’Anthropic, selon les déclarations de leurs PDG sur X. Le fait de collecter du contenu sur le Web à des fins d’entraînements des IA a donné lieu à de nombreuses actions en justice.

À lire aussi : Attaqué par le New York Times, OpenAI demande un accès aux documents préparatoires des journalistes

Alors que les entreprises de l’IA estiment être en droit de se servir sur le Web en vertu du « fair use » aux États-Unis – une exception au droit d’auteur – ou du droit de fouille (data mining) en Europe, des éditeurs estiment qu’il s’agit d’une violation de leurs droits d’auteur – et d’un « pillage » de leurs contenus. Des actions en justice sont en cours pour trancher la question.

🔴 Pour ne manquer aucune actualité de 01net, suivez-nous sur Google Actualités et WhatsApp.

Anthropic

Stéphanie Bascou