Après les États-Unis, la France : Meta, la maison mère de Facebook, de WhatsApp et d’Instagram, est attaqué en justice devant le tribunal judiciaire de Paris pour violation du droit d’auteur et parasitisme. Le groupe de Mark Zuckerberg est accusé d’avoir pioché allégrement dans la littérature française sans autorisation pour entraîner son modèle d’IA générative, Llama. L’accusation est portée par plusieurs syndicats du monde du livre dont le Syndicat national de l’édition (SNE), le Syndicat national des auteurs et compositeurs (SNAC) et la Société des gens de lettres (SGDL), selon un communiqué publié ce mercredi 12 mars.
Ces derniers demandent que les « répertoires de données créés sans autorisation et utilisés pour entraîner les IA » soient « complètement retirés ». Selon nos confrères du Figaro, ils demandent également que les auteurs des ouvrages utilisés pour Llama reçoivent une compensation financière. Si Meta est le premier géant de l’IA attaqué dans l’Hexagone par ces éditeurs et auteurs, d’autres pourraient aussi être assignés en justice, pour les mêmes raisons. « La création d’un marché de l’IA ne peut pas se concevoir au détriment du secteur de la culture », a déclaré Vincent Montagne, président du SNE, cité dans le communiqué.
À lire aussi : Copie illégale « à grande échelle », « kleptocratie du contenu »… La start-up d’IA Perplexity à nouveau attaquée en justice
Au cœur de ce litige, on trouve à nouveau « Books3 », une base de données de 170 000 livres piratés, utilisée par de nombreuses entreprises du secteur. Meta a reconnu un an plus tôt aux États-Unis l’avoir utilisée pour l’entraînement de Llama, se prévalant dans le pays d’une exception au droit d’auteur (la « fair use ») qui n’existe pas en France.
À lire aussi : Mark Zuckerberg était prêt à censurer Facebook pour s’implanter en Chine, selon une lanceuse d’alerte
Qu’est ce que Books3, la base de données au cœur de ce litige ?
Comme nous vous l’expliquions dans cet article, Books3 a été mise en ligne par Shawn Presser, un chercheur qui milite pour l’open source, en 2020. Cette dernière comprendrait près de 196 640 références au format plain.txt, selon un de ses tweets relayés par Torrent Freak.
Cette base aurait été utilisée par Meta pour entraîner son LLaMA pour Large Language Model Meta AI, un modèle open source qui se présente comme une alternative au GPT d’OpenAI, comme l’entreprise l’a elle-même écrit dans un papier de recherche. Cette utilisation est aussi au cœur d’un autre procès, initié en juillet 2023 aux États-Unis, qui oppose l’humoriste américaine Sarah Silverman et deux autres auteurs à Meta et à OpenAI.
Et que contient cette base ? Selon The Atlantic, elle comporte bon nombre de livres piratés (près de 170 000) dont la majorité a été publiée ces 20 dernières années, ainsi que d’autres données plus surprenantes comme les sous-titres de vidéos sur YouTube, les documents et transcriptions du Parlement européen, Wikipédia en anglais, les courriels envoyés et reçus par les employés d’Enron Corporation avant son effondrement en 2001.
🔴 Pour ne manquer aucune actualité de 01net, suivez-nous sur Google Actualités et WhatsApp.