Les plaintes pour atteinte au droit d’auteur liées à l’IA montent d’un cran. Après un accord géant conclu par Anthropic, une procédure visant OpenAI prend une tournure décisive: la justice exige l’accès à des échanges internes sur la suppression d’un jeu de données de livres piratés. À la clé, des dommages et intérêts potentiellement bien plus élevés pour les ayants droit.
Contexte: l’IA face au droit d’auteur
L’essor des modèles d’IA repose sur des quantités massives de contenus en ligne. Cette pratique soulève une question centrale: peut-on entraîner des modèles sur des œuvres protégées sans autorisation au nom du fair use? Les leaders du secteur défendent une interprétation large de cette doctrine, mais auteurs et éditeurs dénoncent une exploitation sans consentement de leur travail. Le débat se déplace désormais du terrain technique vers celui des tribunaux, où la qualification de l’usage (transformateur ou non) et la présence de garde-fous sont examinées de près.
L’accord Anthropic: un signal fort
Le mois dernier, Anthropic a conclu un accord d’environ 1,5 milliard de dollars, après des accusations d’entraînement sur de vastes corpus d’ouvrages protégés. D’après les estimations publiques, l’arrangement ne couvrait qu’environ un demi-million d’œuvres sur près de sept millions, pour un versement moyen de l’ordre de 3 000 $ par auteur. Ce compromis illustre deux réalités: l’ampleur des corpus en jeu et le coût exponentiel que peuvent représenter ces litiges si l’atteinte est considérée comme volontaire ou massive.
L’affaire OpenAI s’intensifie
Dans une procédure distincte, des auteurs et éditeurs attaquent OpenAI en justice. Un tribunal de New York a ordonné la communication de messages Slack et d’e-mails internes portant sur la suppression en masse d’un jeu de données composé de livres piratés. Selon des rapports de presse, ces échanges pourraient éclairer l’«état d’esprit» de l’entreprise au moment des faits — un point crucial pour déterminer si une contrefaçon volontaire a eu lieu.
Accès aux messages internes: un pivot probatoire
L’instruction s’intéresse aux discussions internes sur la suppression d’un corpus incluant des ouvrages présumés issus de LibGen, un site bien connu pour l’hébergement non autorisé d’ouvrages protégés. Les plaignants espèrent y trouver des indices montrant que l’entreprise connaissait les risques juridiques liés à ces données et a agi en conséquence. Dans les litiges de propriété intellectuelle, ces traces internes pèsent lourd: elles peuvent renforcer ou affaiblir la thèse d’un usage de bonne foi.
Suppression de données et soupçon de spoliation
Les demandeurs soutiennent que l’effacement du corpus pourrait s’apparenter à une destruction intentionnelle de preuves, un acte sévèrement sanctionné par les tribunaux. D’après des comptes rendus médiatiques, la juge Ona Wang a déjà relevé des rétentions indûes de documents. À cela s’ajoute une maladresse procédurale: des avocats auraient d’abord expliqué que la suppression était due à la «non-utilisation», avant de corriger cette version. Ce type d’incohérence peut fragiliser une défense et influencer l’appréciation d’un jury.
Risques financiers: des dommages qui peuvent exploser
Si la contrefaçon volontaire était retenue, la barre des dommages statutaires pourrait grimper jusqu’à 150 000 $ par œuvre (contre des montants beaucoup plus modestes lorsqu’il n’y a pas de volonté délibérée). Rapporté à des corpus de centaines de milliers d’ouvrages, l’exposition financière devient considérable — potentiellement supérieure à ce que l’on a vu dans le dossier Anthropic.
« Fair use » contesté et garde-fous techniques
L’industrie soutient que l’entraînement des modèles relève d’un usage transformateur compatible avec le fair use. Mais cette ligne de défense est mise à l’épreuve par des produits concrets. Par exemple, l’application de génération vidéo Sora 2 aurait produit de nombreuses vidéos fortement inspirées d’œuvres protégées. Malgré des garde-fous renforcés, des utilisateurs parviendraient à les contourner. Ces situations alimentent l’idée que le problème ne se limite pas à un modèle textuel: l’écosystème complet des IA génératives est concerné.
Ce que cela change pour les auteurs et les éditeurs
Au-delà des décisions individuelles, on observe un effet de bascule: les ayants droit disposent de leviers plus puissants en négociation. Entre les injonctions potentielles, les risques de dommages majorés et l’image publique des entreprises, la tentation de règlements amiables augmente. À court terme, cela peut se traduire par des compensations financières supplémentaires; à moyen terme, par des accords de licences plus clairs, une meilleure traçabilité des données et des processus d’entraînement plus sélectifs.
Et maintenant?
La suite dépendra de ce que révéleront les messages internes exigés par la cour. Trois scénarios dominent:
- Des éléments accablants poussent à un règlement rapide et coûteux.
- Les échanges sont ambigus et prolongent un débat juridique sur le fair use et la preuve de volonté.
- L’affaire fixe des repères procéduraux sur la conservation des données d’entraînement, avec un impact durable pour tout le secteur.
Quoi qu’il arrive, l’IA entre dans une phase où la conformité et la gouvernance des données deviennent des priorités aussi stratégiques que la performance des modèles.
FAQ
Qu’est-ce que la spoliation de preuves et pourquoi est-ce grave?
La spoliation, c’est la destruction ou l’altération de preuves pertinentes pour un litige. Les tribunaux peuvent sanctionner sévèrement ce comportement (amendes, instructions défavorables au jury, voire présomptions contre la partie fautive), car il porte atteinte à l’équité de la procédure.
Le « fair use » s’applique-t-il en Europe ou en France?
Non. Le fair use est une doctrine américaine. En Europe et en France, on parle d’«exceptions au droit d’auteur» plus étroites (courte citation, parodie, etc.). Les entreprises d’IA opérant globalement doivent donc composer avec des régimes juridiques différents selon les pays.
Comment entraîner une IA sans enfreindre le droit d’auteur?
Plusieurs voies existent: utiliser des œuvres du domaine public, des contenus licenciés (accords avec éditeurs, banques d’images, plateformes), des données sous licences ouvertes compatibles, ou générer des données synthétiques. La traçabilité et la documentation des sources sont essentielles.
Quels risques encourent les entreprises d’IA dans ces dossiers?
Outre des dommages statutaires par œuvre, elles risquent des injonctions limitant l’usage des modèles, des sanctions procédurales en cas de manquements (spoliation, rétention), et des coûts élevés de mise en conformité (filtrage, réentraînement).
Que peuvent faire les auteurs dès maintenant?
Enregistrer leurs œuvres quand c’est pertinent, surveiller les usages non autorisés, utiliser les mécanismes de takedown quand ils existent, se regrouper via des associations ou actions collectives, et envisager des licences lorsque c’est dans leur intérêt. Ces démarches renforcent leur position en cas de litige.
