Comment OpenAI (ChatGPT) se défend d'avoir pillé le New York Times

Selon le New York Times, OpenAI aurait pillé ses publications et ses archives en ligne pour nourrir et entraîner le grand modèle de langage (LLM) sur lequel s’appuie ChatGPT. Le prestigieux éditeur de presse estime que des millions d’articles ont été exploités sans son autorisation. C’est ce qui vaut à OpenAI une plainte en bonne et due forme, avec à la clé « des milliards de dollars en dommages et intérêts ».

Lire Le New York Times attaque OpenAI et Microsoft : ils auraient pillé le journal pour leur IA

OpenAI ne se démonte pas. Dans un billet de blog, l’entreprise se défend de tout pillage et parle de « droit de citation » ( « fair use »), une notion qui permet l’utilisation d’œuvres protégées par le droit d’auteur sous certaines conditions. Le « fair use » américain se montre d’ailleurs plus flexible que celui pratiqué en France.

Les régurgitations de ChatGPT

Ce principe, qui autorise OpenAI à entraîner ses modèles d’IA est supporté par un grand nombre d’organisations et d’entreprises, soutient OpenAI, que ce soit aux États-Unis ou dans l’Union européenne. La société rappelle aussi qu’elle a mis en place un système qui permet aux éditeurs d’interdire à OpenAI d’engloutir leurs contenus. Le NYT l’a d’ailleurs adopté en août 2023.

Le quotidien américain reproche aussi à ChatGPT de « régurgiter » ses contenus sans les modifier au minimum. Une accusation de copie pure et simple qui est certes confirmée par OpenAI, mais il s’agirait d’un bug « rare » que l’entreprise cherche à éliminer. « Nous avons donc mis en place des mesures pour limiter la mémorisation involontaire et empêcher la régurgitation dans les résultats de nos modèles », assure-t-elle.

Toutefois, OpenAI déplore que le NYT ait refusé de produire des exemples de ces fameuses régurgitations. Et pire, l’entreprise affirme que le quotidien aurait manipulé intentionnellement des requêtes, « en incluant souvent de longs extraits d’articles », pour pousser ChatGPT à régurgiter la même copie. « Même en utilisant de tels prompts, nos modèles ne se comportent généralement pas de la manière insinuée par le New York Times, ce qui suggère qu’ils ont soit donné des instructions au modèle pour régurgiter, soit sélectionné leurs exemples parmi de nombreuses tentatives », selon OpenAI.

Les deux sociétés se sont rencontrées à plusieurs reprises pour évoquer le sujet, la dernière fois le 19 décembre. OpenAI avait proposé au Times de travailler sur l’affichage en temps réel des attributions de ChatGPT — autrement dit, le bot proposerait des liens vers les articles correspondants, comme c’est le cas lorsqu’il va piocher dans Bing. Mais ça n’a rien donné, et la plainte a été déposée fin décembre.

On verra comment cette histoire se terminera potentiellement en coulisses et avec un chéquier ! OpenAI proposerait d’ailleurs plusieurs millions de dollars à des éditeurs et des médias américains pour avoir accès (rétroactif ?) à leurs articles.