IA : OpenAI et Apple sortent leurs carnets de chèques pour éviter de nouveaux procès

Après la collecte, le temps de la compensation financière ? Une semaine après le lancement de poursuites du New York Times contre OpenAI pour violation de droit d’auteur, la société à l’origine de ChatGPT aurait décidé de changer de braquet. Selon The Information, elle proposerait à certains médias américains de payer une licence annuelle d’utilisation, allant de 1 à 5 millions de dollars. Son objectif : pouvoir légalement exploiter leurs articles d’actualité à des fins d’entraînement de ses modèles de langage. Mais selon nos confrères, ce montant serait très loin des demandes actuelles des éditeurs de presse, même pour les plus petits acteurs.

L’information a ensuite été confirmée par Tom Rubin, responsable de la propriété intellectuelle chez OpenAI, interviewé chez nos confrères de Bloomberg :« Nous sommes au milieu de nombreuses négociations et discussions avec de nombreux éditeurs. (…) Elles progressent bien ». Selon le responsable, ces discussions concernaient une douzaine d’éditeurs : « Vous avez vu des accords annoncés, et il y en aura d’autres à l’avenir », a-t-il souligné.

Ces derniers mois, l’entreprise a, en effet, trouvé un terrain d’entente avec deux grands éditeurs : l’agence de presse Associated Press l’été dernier, et Axel Springer, la maison mère de Business Insider, de Politico, de Bild et de Die Welt, en décembre dernier. Pour Apple, l’entreprise de Tim Cook chercherait à faire de même, mais serait plus généreuse et plus exigeante, expliquait le New York Times quelques semaines plus tôt. La firme à la pomme serait prête à mettre plus d’argent sur la table, mais demanderait davantage qu’OpenAI dans l’utilisation des contenus protégés. Elle négocierait des accords avec Condé Nast (Vogue et The New Yorker), NBC News et IAC (The Daily Beast), selon nos confrères.

Les entreprises du secteur ne se sont d’abord pas souciées des questions de droit d’auteur

Ces annonces d’accords marquent-elles un véritable changement d’approche chez OpenAI et d’autres entreprises leaders du secteur de l’IA ? Jusqu’à présent, ces dernières ont développé leur modèle de langage en collectant massivement sur le Web des milliards de données grâce à des robots crawlers, ces robots explorateurs du Web. Les LLM ont besoin d’une très grande quantité de data pour être entraînés. Et jusqu’à il y a peu, ces entreprises ne se seraient pas réellement souciées des personnes ou des sociétés à l’origine de ces contenus – ou plutôt, elles ont estimé qu’elles étaient en droit de ne pas s’en soucier. Au moment de la collecte, leurs crawlers ne font pas la différence entre contenus protégés par le copyright et ceux pouvant être utilisés librement. Tout simplement parce que sur le Web, il n’est pas toujours mentionné que tel texte ou tel dessin est protégé par le droit d’auteur.

Cela n’a évidemment pas été du goût des éditeurs, des auteurs et des ayants droits qui sont, ces derniers mois, passés à l’action. Ils ont poursuivi les entreprises du secteur pour violation du droit d’auteur, et ils ont bloqué la collecte des articles ou des œuvres via différents protocoles. Ces derniers estiment que l’utilisation de leurs œuvres à des fins d’entraînement est un véritable pillage non autorisé – et non rémunéré, comme le soutient le New York Times dans son action contre OpenAI (et son partenaire Microsoft). Le média américain a accusé la société d’avoir utilisé ses contenus journalistiques pour entraîner son IA générative, sans autorisation. Selon le quotidien, les LLM ont été « développés en copiant et en utilisant des millions d’articles de presse, d’enquêtes approfondies, d’articles d’opinion, de critiques, de guides pratiques et autres, protégés par des droits d’auteur, publiés par le quotidien ».

À lire aussi : Droit d’auteur : où en est-on dans la bataille qui oppose créateurs et artistes aux développeurs d’IA ?

Le média new-yorkais a également bloqué le robot d’exploration d’OpenAI sur son site Web, comme CNN et Reuters. En France aussi, le Geste, qui regroupe près de 90 éditeurs en ligne, a recommandé aux éditeurs d’intégrer le « TDM Reservation protocol » aux sites d’information : « un préalable nécessaire à la mise en place de licences dans un cadre négocié », écrivait l’organisme dans un communiqué de septembre. Et cet instrument a été adopté par de nombreux titres de presse dans l’Hexagone, rapportait Mind Media, en octobre et novembre dernier, en attendant une négociation. Les comédiens et doubleurs ont aussi tenté d’alerter l’opinion publique et les législateurs.

Qui a raison ? Les juges doivent trancher

Face à cette bronca, les entreprises du secteur, comme Microsoft, Google et Adobe, sont d’abord restés droit dans leur botte. Ils ont cherché à rassurer leurs clients en proposant de les indemniser s’ils étaient poursuivis pour violation de droits d’auteur découlant de l’utilisation de leurs produits d’IA. Ils ont aussi expliqué que l’utilisation de ces données était licite grâce à des exceptions au droit d’auteur.

Et tout l’enjeu des actions en justice qui seront jugées dans les prochains mois réside dans le fait de savoir si ces exceptions (le « fair use » en droit américain) peuvent jouer dans un tel cas. Justifient-elles l’entraînement d’un modèle de langage sur des contenus protégés sans autorisation ? Pour les juristes, la réponse n’est pas claire, souligne James Grimmelmann, professeur de droit numérique interrogé par le Washington Post. Selon le spécialiste, le copyright interdit la reproduction à l’identique ou très proche d’une œuvre, sans autorisation. Mais il est possible d’utilisation une œuvre protégée, s’il s’agit d’en créer une nouvelle qui se différencie suffisamment de la première.

Or avec l’IA, explique-t-il à nos confrères, on a les deux situations en même temps : la reproduction quasi à l’identique – comme lorsqu’on demande à ChatGPT de reproduire dans le style de tel auteur – et l’utilisation d’une œuvre pour créer autre chose – comme lorsque ChatGPT se sert de différents articles sur un même sujet pour en faire une synthèse. Les tribunaux américains devront déterminer si les sociétés d’IA doivent ou non obtenir l’autorisation de l’auteur dans une telle situation – avec une rémunération à la clef.

La question se pose aussi pour le droit européen, qui prévoit une exception au droit d’auteur pour les modèles de langage. L’exception dite de data mining permet aussi de se passer de l’accord des auteurs, mais seulement s’il s’agit de recherche – ce qui n’est pas le cas ici puisqu’on est bien face à un usage commercial. Et si l’AI Act pourrait modifier ce point, le texte imposant une obligation de transparence pour les développeurs d’IA en la matière, il n’a pas encore été adopté, et ne sera pas appliqué avant plusieurs années.

Une approche opportuniste ?

Mais pour d’autres, si les entreprises du secteur comme OpenAI commencent à négocier des accords avec des ayants droit, c’est qu’elles n’ont pas le choix. Elles ont besoin des données actualisées – comme les derniers articles de grands médias – pour que leur IA générative puisse proposer des réponses adéquates à leurs clients. Or, avec le blocage des sites, elles n’ont plus accès aux derniers articles. Ce qui explique que dans son communiqué de la semaine dernière, OpenAI précise que la société, qui estime respecter « les droits des créateurs et des propriétaires de contenus », s’engage à « travailler avec eux pour qu’ils bénéficient(…) de nouveaux modèles de revenus ».

Combien ces derniers seront-ils payés ? Les montants en jeu n’ont pas été officiellement dévoilés, mais on sait que l’accord conclu entre OpenAI et Axel Springer – la société mère de Politico et de Business Insider, aurait été trouvé en échange de plusieurs dizaines de millions de dollars. Les autres éditeurs pourraient choisir de conclure l’accord le plus rémunérateur possible, ou attendre sagement l’issue du procès qui oppose le New York Times à OpenAI. L’affaire pourrait contraindre la société à payer les milliards de dommages et intérêts réclamés par le quotidien, et détruire toutes les données du média américain utilisées par ChatGPT – une tâche considérée comme titanesque et coûteuse pour l’entreprise.

🔴 Pour ne manquer aucune actualité de 01net, suivez-nous sur Google Actualités et WhatsApp.