Pour son procès contre OpenAI, le New York Times va analyser les logs supprimés de ChatGPT

Dans l’affaire opposant le journal étasunien à l’entreprise d’IA générative, le New-York Times a obtenu la possibilité d’analyser tous les logs de ChatGPT afin de trouver d’éventuelles preuves de violation de copyright.
Aux États-Unis, le procès intenté par le New-York Times contre OpenAI pour violation de copyright continue depuis la plainte déposée en décembre 2023.
Le journal va finalement pouvoir fouiller dans les logs du Chatbot d’OpenAI à la recherche de preuves de violation du copyright des articles publiés sur son site, selon ArsTechnica.
En mai, le juge en charge de l’affaire a ordonné à OpenAI de préserver « tous les journaux de sorties qui devraient normalement être supprimés » et ce « jusqu’à nouvel ordre de la Cour ». Cela concerne toutes les données que l’entreprise d’IA générative supprime d’habitude, « que ces données soient supprimées à la demande d’un utilisateur ou en raison de « nombreuses lois et réglementations sur la protection de la vie privée » qui pourraient exiger qu’OpenAI le fasse », précisait-il.
L’entreprise avait publié un billet affirmant que cette décision allait « fondamentalement à l’encontre des engagements que [elle a] pris envers [ses] utilisateurs en matière de protection de la vie privée. Elle abandonne des normes de longue date en matière de respect de la vie privée ».
Un dilemme pour OpenAI
Si officiellement, OpenAI veut « continuer de se battre », la seule possibilité de contrer cette demande aurait de faibles chances d’aboutir, selon ArsTechnica. Le problème de l’entreprise d’IA générative est d’être prise dans un dilemme : soit elle continue la bataille et garde pendant longtemps des données qu’elle considère sensibles, soit elle laisse le journal accéder à certaines données de ses utilisateurs.
Pour autant, le New-York Times ne pourra pas accéder à l’entièreté de la base de données d’OpenAI. Les deux entreprises vont devoir se mettre d’accord sur un processus pour que le journal accède à certaines données qui lui permettent d’illustrer des cas manifestes d’infraction au copyright. Ainsi, l’équipe juridique du média devrait par exemple pouvoir faire des recherches sur certains mots clés ou certaines informations. De même, les données resteront sur les serveurs d’OpenAI et seront anonymisées.
À la recherche de preuves de concurrence déloyale
Rappelons que la plainte du New York Times concerne l’utilisation par OpenAI et Microsoft de millions de ses articles pour entraîner leur famille de grands modèles de langage (Large language models, LLM) GPT utilisée par ChatGPT, Bing Chat et Copilot. Elle accuse les entreprises de lui faire ainsi une concurrence déloyale en renvoyant les contenus de ses articles à leurs utilisateurs.
Le journal cherche donc dans les logs des preuves que le chatbot d’OpenAI est utilisé massivement pour accéder aux contenus dont il a le copyright. Toute cette histoire autour de l’accès aux journaux d’OpenAI pourrait permettre au New York Times d’argumenter contre la logique du fair use.
Celui-ci peut tenir face aux accusations d’utilisation de contenus copyrightés, comme le montrent deux décisions de la justice étasunienne récentes. Mais dans l’un de ces cas, l’un des juges a expliqué qu’à ses yeux, la concurrence déloyale pouvait être un argument « potentiellement gagnant ».