Passer au contenu

Les sous-titres de 173 000 vidéos YouTube exploités sans autorisation pour entrainer les IA d’Apple, Nvidia et Anthropic

Plusieurs grandes entreprises IA ont eu recours à une base de données contenant les sous-titres de plus 173 000 vidéos YouTube pour entraîner leurs IA. Sans consentement des créateurs de contenus, ni rémunération.

« Du vol », c’est ainsi que Dave Wiskus, patron du service de streaming Nebula, qualifie la pratique des grandes entreprises IA qui siphonnent les créateurs de contenus de YouTube, sans aucune autorisation et encore moins de compensation. Une enquête de Proof News, relayée par Wired, confirme qu’Anthropic, Nvidia, Apple ou encore Salesforce ont exploité les sous-titres de 173 536 vidéos YouTube siphonnés de plus de 48 000 chaînes.

Les IA prennent tout ce qui passe

Ces sociétés ne se sont pas directement branchés au robinet de YouTube — dont les règles interdisent le moissonnage de sa plateforme sans autorisation —, elles ont utilisé la base de données YouTube Subtitles, publiée en 2020 par EleutherAI. On y trouve les sous-titres de nombreuses vidéos de créateurs de contenus très populaires, comme MrBeast, MKBHD, PewDiePie… mais aussi des vidéos éducatives et des contenus produits par de grands médias (BBC, WSJ, etc.).

Proof News a créé un outil en ligne pour savoir si telle ou telle chaîne YouTube avait été pillée. Pour Dave Wiskus, se servir du travail des créateurs sans leur consentement est « irrespectueux ». « Est-ce que [ces grandes entreprises] utiliseront ces données pour exploiter et nuire aux artistes ? Oui, absolument », affirme-t-il sans ambages.

EleutherAI, une organisation de recherche à but non lucratif dédiée au développement de l’IA ouverte et accessible, a expliqué que YouTube Subtitles faisait partie d’une base de données encore plus importante de contenus moissonnés, appelée The Pile. Elle contient d’énormes volumes de texte provenant de Wikipedia, du Parlement européen, et même de courriels d’employés d’Enron.

Une grande partie de The Pile est accessible à tous, à condition de disposer de suffisamment d’espace de stockage et d’une grosse puissance de calcul pour l’exploiter. Pas un problème pour ces grands groupes, qui ont confirmé que cette base de données faisait partie des informations utilisées pour entraîner leurs grands modèles de langage (LLM), par exemple OpenELM chez Apple.

Ces révélations ne sont pas une surprise : les entreprises IA ont recours à toutes sortes de combines pour alimenter leurs LLM, certaines à la frontière de la légalité. Plusieurs d’entre elles, attaquées par des éditeurs, se réfugient derrière le « fair-use », ou encore droit à la citation. D’autres encore, à l’image d’Apple, parle d’« open web » pour justifier le pillage des contenus publiés sur internet.

Lire IA : les combines d’OpenAI, de Google et de Meta pour pallier la pénurie de données

Mise à jour 18/07 — Apple est sorti du bois en affirmant que son modèle de langage OpenELM n’était pas utilisé pour les fonctions d’Apple Intelligence. Ce LLM a été créé à des fins de recherche, d’ailleurs il a été publié en open source à la disposition de chacun. OpenELM n’étant pas présent dans Apple Intelligence, les fonctionnalités d’IA générative de la firme à la pomme n’ont pas été entraînées avec les sous-titres de YouTube, CQFD. Du moins jusqu’aux prochaines révélations gênantes…

🔴 Pour ne manquer aucune actualité de 01net, suivez-nous sur Google Actualités et WhatsApp.

Source : Wired


Mickaël Bazoge