Intelligence Artificielle

OpenAI Contraint de Remettre 20 Millions de Logs ChatGPT dans le Conflit de Droits d’Auteur avec le New York Times

OpenAI Contraint de Remettre 20 Millions de Logs ChatGPT dans le Conflit de Droits d'Auteur avec le New York Times

Les recommandations de contenu et de produits d’ADGO.ca sont indépendantes sur le plan éditorial. Nous pouvons générer des revenus lorsque vous cliquez sur des liens vers nos partenaires.


OpenAI contraint de divulguer des conversations ChatGPT anonymisées

OpenAI a reçu l’ordre de fournir 20 millions de journaux de conversations ChatGPT anonymisés à une coalition de éditeurs de presse, y compris le New York Times, dans le cadre d’une importante bataille juridique sur les droits d’auteur concernant l’IA générative.

Un juge magistrat américain à Manhattan a rejeté la tentative d’OpenAI de maintenir ces journaux à l’écart de la découverte, jugeant que ces fichiers anonymisés sont pertinents pour l’affaire et protégés par plusieurs mesures de confidentialité. Cette décision augmente les enjeux tant pour OpenAI que pour les éditeurs, qui prétendent que ChatGPT a utilisé et reproduit leurs contenus de manière illégale.

Rejet des arguments de confidentialité d’OpenAI

Le juge magistrat Ona Wang, du district sud de New York, a refusé la demande d’OpenAI de réexaminer une ordonnance antérieure qui avait requis la production d’un échantillon de 20 millions de journaux de sortie de ChatGPT pour la découverte dans les litiges de droits d’auteur impliquant le Times et d’autres éditeurs.

Les éditeurs ont fait valoir que ces journaux sont cruciaux pour déterminer si ChatGPT a reproduit leurs articles protégés par des droits d’auteur, et pour examiner les défenses d’OpenAI, y compris l’utilisation équitable et les usages non contrefaisants substantiels.

A lire :  Les chercheurs annoncent une IA révolutionnaire pour décoder le langage des poules.

OpenAI s’est opposé à cette demande, soutenant que la divulgation des journaux risquerait d’exposer des informations confidentielles d’utilisateurs et que « 99,99 % » des transcriptions étaient hors sujet pour les demandes des plaignants. Le juge Wang a rejeté cette assertion, notant que les 20 millions de journaux ne représentent qu’une petite portion des « dizaines de milliards » de journaux de ChatGPT que conserve OpenAI, et qu’un échantillon comme celui-ci est pertinent pour les affaires en cours, y compris les allégations de reproduction, de dommages et d’utilisation équitable.

Le tribunal a également souligné qu’il existe de « nombreuses couches de protection » pour la vie privée des utilisateurs, impliquant l’anonymisation des journaux par OpenAI, un ordre de protection existant et une désignation « réservée aux avocats » pour ces données.

Les journaux ChatGPT : un point de friction juridique

Les éditeurs cherchent à obtenir des données sur les journaux de sortie depuis plus d’un an pour comprendre comment ChatGPT interagit avec leur contenu. Les premières demandes de découverte incluaient des journaux de consommation, d’entreprise et d’API, mais les parties ont par la suite restreint l’objet à un échantillon de journaux de consommateurs pour la découverte de fond.

D’ici mi-2025, les plaignants ont demandé un échantillon de 120 millions de journaux couvrant une période de deux ans. OpenAI a proposé un échantillon de 20 millions, arguant qu’un échantillon plus petit serait plus facile à anonymiser tout en restant utile pour une analyse statistique. Les plaignants ont accepté de se baser là-dessus.

Après qu’OpenAI ait terminé ou presque terminé l’anonymisation des journaux, la société a informé les éditeurs qu’elle ne produirait pas l’échantillon complet et a plutôt suggéré des recherches par mots-clés pour restreindre l’ensemble. Les éditeurs ont alors demandé à obtenir ces informations par voie de contrainte, et Wang a approuvé la requête. OpenAI a ensuite cherché à obtenir un réexamen et a également fait appel de l’ordonnance auprès du juge de district.

A lire :  Meta Déconsidère les Règles Floues et Complexes de Facebook sur les Mamelons Féminins

Wang a constaté que de telles motions sont un « recours exceptionnel » et a jugé qu’OpenAI n’avait pas invoqué de loi ou de fait contrôlant que le tribunal avait précédemment négligé.

Les éditeurs de presse ont décrit ce conflit en des termes très vifs. Frank Pine, rédacteur en chef de MediaNews Group, a indiqué que la direction d’OpenAI « hallucinait » en pensant qu’elle pouvait se soustraire à la fourniture d’épreuves concernant la manière dont leur modèle économique repose sur le fait de tirer profit du travail acharné des journalistes, comme l’a rapporté Reuters.

OpenAI insiste sur les préoccupations de vie privée et de sécurité

Pour sa défense, OpenAI s’est efforcé de positionner sa réaction comme étant motivée par des inquiétudes de sécurité et de confidentialité. Un porte-parole de l’entreprise a cité un article de blog du directeur de la sécurité de l’information, Dane Stuckey, affirmant que la demande du Times pour des journaux de discussion « ignore les protections de confidentialité de longue date » et « contrevient à des pratiques de sécurité de bon sens ».

Lors de l’audience, OpenAI a soutenu que la transmission des journaux compromettrait la confidentialité des utilisateurs, malgré l’anonymisation et l’ordre de protection. Toutefois, le juge Wang n’a pas été convaincu, notant que les protections de confidentialité présentes étaient satisfaisantes.

L’avis a également soulevé des questions sur la stratégie juridique d’OpenAI. Wang a observé que si OpenAI n’avait jamais prévu de produire les 20 millions de journaux, il était flou de comprendre pourquoi l’entreprise avait dépensé du temps et de l’argent à anonymiser l’ensemble de l’échantillon. Elle a suggéré qu’OpenAI avait soit changé d’avis après avoir initialement prévu de divulguer les données, soit a anonymisé l’intégralité de l’ensemble comme tactique ou pour une autre raison non divulguée.

A lire :  Le PDG d'OpenAI : La peur de l'IA que nous façonnons n'est pas une blague.

Contexte général : droits d’auteur, IA et pouvoir des éditeurs

Le New York Times a intenté une action en justice en 2023, alléguant qu’OpenAI, et dans des affaires connexes, d’autres entreprises technologiques avaient utilisé des matériaux protégés par des droits d’auteur pour entraîner des modèles d’IA sans autorisation. Ces poursuites ont depuis été consolidées, et l’affaire se présente comme un test de l’application des doctrines de droits d’auteur existantes aux entraînements et aux résultats de l’IA.

Pour les éditeurs, la production des journaux ordonnée pourrait offrir une visibilité sans précédent sur la façon dont les modèles de langage gèrent réellement le contenu d’actualité, qu’il soit reproduit, paraphrasé ou évité. Pour les développeurs d’IA, ce jugement souligne que les tribunaux pourraient ne pas accepter des arguments généraux de confidentialité et de charge face à un ensemble de données anonymisé et limité qui est central aux demandes et aux défenses en jeu.

Les équipes d’IT d’entreprise et de droit surveilleront cette affaire autant pour les normes de découverte que pour son issue. La manière dont le tribunal équilibre la vie privée, la proportionnalité et la transparence pourrait influer sur ce que les régulateurs, les plaignants et les partenaires peuvent exiger des systèmes d’IA qui demeurent largement opaques à l’examen externe.

En parallèle, OpenAI teste si des modèles peuvent apprendre à admettre leurs propres raccourcis et erreurs.

FAQ

Qu’est-ce que l’anonymisation des données ?

L’anonymisation consiste à transformer des données personnelles de manière à ce qu’elles ne puissent plus être attribuées à une personne spécifique, garantissant ainsi la confidentialité.

Quel est l’impact de cette décision sur les pratiques des entreprises technologiques ?

Cette décision pourrait influencer comment les entreprises technologiques gèrent et utilisent les données personnelles, en établissant des précédents en matière de droits d’auteur et de confidentialité.

Pourquoi les éditeurs de presse s’opposent-ils à OpenAI ?

Les éditeurs estiment que leurs contenus ont été utilisés illégalement pour entraîner des modèles d’IA, ce qui nuit à leurs droits d’auteur et à leurs revenus.

Quelles protections existent pour la vie privée des utilisateurs dans ce contexte ?

Les protections incluent l’anonymisation des données, des ordres de confidentialité en cours, et des désignations spécifiques pour limiter l’accès aux informations.

Quelle pourrait être la suite de cette affaire ?

La suite dépendra des stratégies juridiques adoptées par OpenAI, des réponses des éditeurs, et de l’évolution du cadre juridique relatif aux droits d’auteur et à l’intelligence artificielle.