Une plainte inattendue vise aujourd’hui Meta: deux ayants droit du secteur des contenus pour adultes estiment que le géant technologique a téléchargé illégalement des milliers de vidéos via BitTorrent pour nourrir ses systèmes d’IA générative. Meta conteste vigoureusement, affirme éviter ce type de données et soutient qu’il s’agirait d’usages personnels isolés, sans rapport avec l’entraînement de ses modèles. En toile de fond: des dommages réclamés qui atteignent des centaines de millions de dollars et des questions épineuses sur la manière dont on constitue des jeux de données à l’ère de l’IA.
D’où vient le litige ?
- Au cœur de l’affaire, deux sociétés de l’audiovisuel pour adultes: Strike 3 et Counterlife Media. Elles ont engagé, en juillet, une action civile aux États‑Unis contre Meta.
- Leur thèse: l’entreprise aurait eu recours à des téléchargements illégaux d’environ 2 400 vidéos afin d’entraîner ses algorithmes, tout en explorant la possibilité d’une déclinaison orientée “adulte” d’un outil de génération vidéo baptisé Movie Gen.
- Les plaignants réclament en cumulé près de 359 millions de dollars de dommages et intérêts, estimant que l’ampleur et la nature des téléchargements témoignent d’une stratégie organisée.
Les accusations en détail
- Les ayants droit affirment que des adresses IP associées à l’infrastructure de Meta auraient servi à partager ou distribuer des œuvres protégées.
- Ils évoquent plus largement une pratique problématique dans l’écosystème de l’IA: agréger à grande échelle des contenus protégés par le droit d’auteur pour créer des modèles performants, sans licences claires.
- L’accusation s’appuie notamment sur la présence d’environ 47 adresses IP liées à la diffusion non autorisée de ces vidéos.
Ce que répond Meta
- Meta a demandé le rejet de la procédure, avançant que la quantité de fichiers évoquée ne permettrait en rien de bâtir un modèle exploitable. Selon elle, 2 400 vidéos, réparties sur des années et sur de multiples adresses IP, ne constituent pas un corpus suffisant pour l’entraînement d’une IA moderne.
- L’entreprise qualifie ces téléchargements d’“usage personnel privé”: en moyenne, environ 22 téléchargements par an auraient été repérés sur “des dizaines” d’adresses IP, ce qui serait incompatible avec une démarche systématique de collecte de données pour l’IA.
- Meta insiste par ailleurs sur sa politique interne: elle dit ne pas vouloir de ce type de contenus et affirme prendre des mesures délibérées pour éviter d’entraîner ses modèles sur de telles données.
Un élément embarrassant: l’IP d’un proche d’un sous-traitant
- Les plaignants citent aussi 97 téléchargements supplémentaires apparus depuis l’IP domestique du père d’un contractuel travaillant pour Meta.
- Pour Meta, ce point ne prouve rien contre la société: l’adresse est privée, hors du périmètre de l’entreprise, et ces téléchargements relèveraient manifestement d’une consommation personnelle, sans lien démontré avec des activités professionnelles ou un projet d’IA.
La question clé: combien de données faut-il pour entraîner une IA ?
- Les ayants droit décrivent une collecte massive indispensable pour produire des résultats crédibles, suggérant que Meta aurait bâti ou envisagerait de bâtir un jeu de données reposant sur des contenus pour adultes.
- Meta réplique que le volume et la dispersion des fichiers avancés ne correspondent pas aux pratiques d’entraînement: un modèle vidéo moderne exige d’ordinaire des millions d’exemples, des métadonnées cohérentes, une infrastructure dédiée et des pipelines reproductibles — très loin de quelques centaines de fichiers par an disséminés sur des IP diverses.
Un enjeu plus vaste: propriété intellectuelle et IA
- Au-delà de cette affaire, se pose la question des licences, de la traçabilité des sources et du respect des ayants droit à l’ère des modèles génératifs.
- Pour les entreprises d’IA, la ligne de crête consiste à concilier performance des modèles, conformité juridique et réputation. Les décisions de justice à venir, dans ce dossier ou d’autres, pourraient fixer des précédents sur la manière d’acquérir et d’utiliser des données protégées.
Et maintenant ?
- Le tribunal devra apprécier la solidité des éléments techniques (traces IP, volumes, contexte) et déterminer s’il existe un lien probant entre les téléchargements et un entraînement ciblé orchestré par Meta.
- Plusieurs issues sont possibles: rejet de la plainte, poursuite avec découverte (discovery) plus poussée, ou règlement amiable.
- En attendant, cette affaire rappelle l’importance des bonnes pratiques numériques et de la conformité — sans jamais justifier ni encourager le piratage.
FAQ
Qu’est-ce qu’une adresse IP et pourquoi compte-t-elle dans ce type d’enquête ?
Une adresse IP identifie un point de connexion à Internet. Lors d’enquêtes sur le partage illicite, elle sert de trace technique pour relier une activité à un réseau précis. Cela ne suffit pas toujours à identifier une personne, mais cela peut situer une infrastructure (entreprise, foyer, fournisseur).
2 400 vidéos suffisent-elles à entraîner un modèle d’IA vidéo crédible ?
En pratique, non. Les modèles vidéo performants reposent généralement sur des volumes massifs et variés (souvent des millions de clips) avec des annotations et un pipeline de qualité. Un petit corpus disparate est rarement suffisant pour obtenir un modèle robuste.
Qu’est-ce que Movie Gen ?
C’est un projet de génération vidéo par IA mentionné publiquement par Meta. L’idée est de produire des séquences vidéo à partir de prompts ou d’entrées multimodales. L’existence d’une éventuelle variante “adulte” est une allégation des plaignants, non confirmée par Meta.
Que risque une entreprise en cas de violations massives du droit d’auteur ?
Des dommages et intérêts élevés, des injonctions limitant l’usage de données litigieuses, des coûts juridiques importants et un impact réputationnel. Des accords de licence rétroactifs ou des règlements peuvent aussi survenir.
Comment constituer légalement un jeu de données pour l’IA ?
- Obtenir des licences claires auprès des ayants droit.
- Utiliser des banques de contenus sous licences ouvertes compatibles.
- Mettre en place une gouvernance des données (traçabilité, consentements, filtrage).
- Documenter les sources et les processus pour faciliter les audits et assurer la conformité.
