Utilisation Non Autorisée des Sous-Titres YouTube pour Former des IA
Une récente enquête révèle qu’un vaste ensemble de données de sous-titres YouTube a été exploité pour entraîner de nombreux modèles d’intelligence artificielle sans le consentement des milliers de créateurs concernés. Ces derniers n’ont pas été informés que leur travail avait été utilisé de cette manière.
Détails de l’Enquête
Selon un article de Wired, en utilisant l’aide du Proof News, un projet axé sur les données, il a été mis en évidence qu’un ensemble connu sous le nom de “Sous-Titres YouTube” a servi à des géants tels qu’Apple, Nvidia et Salesforce pour former des IA depuis son lancement en 2020. Cet ensemble, réalisé par l’organisation à but non lucratif EleutherAI, ne contient pas de vidéos réelles, mais plutôt des données de sous-titres extraites de 173 536 vidéos issues de plus de 48 000 chaînes, allant de MIT et Harvard jusqu’à MrBeast et la BBC.
Prise de Conscience des Créateurs
Tous les propriétaires de chaînes contactés par Proof n’avaient pas été préalablement informés que leurs sous-titres étaient utilisés par EleutherAI. Parmi ceux-ci, le vlogger progressiste David Pakman s’est dit très mécontent d’apprendre que ses vidéos avaient été intégrées dans ce jeu de données. Pakman, dont près de 160 vidéos ont été utilisées, a souligné que cela constitue une grande part de son activité professionnelle et qu’il consacre du temps, des ressources et de l’argent à la création de ce contenu.
L’Impact de l’Ensemble de Données
Jai Vipra, chercheur en politiques d’IA, considère ce jeu de données comme une véritable mine d’or car il pourrait enseigner aux modèles comment reproduire la parole humaine. Cependant, d’autres créateurs comme Dave Farina, qui réalise la série “Professor Dave Explains”, soulignent que cette mine d’or a un prix pour les producteurs de contenu. Selon lui, il est essentiel qu’un dialogue soit initié concernant une éventuelle compensation ou des régulations appropriées.
Réaction des Entreprises
Lorsque Proof a tenté d’interroger Google, propriétaire de YouTube, EleutherAI, et d’autres entreprises ayant utilisé cet ensemble, seule une porte-parole de Google a répondu en affirmant que la société avait pris des mesures « au fil des ans pour prévenir le scraping abusif et non autorisé ». Cela soulève de sérieuses questions et il reste difficile de déterminer une solution adéquate dans ce contexte où les entreprises hésitent à s’exprimer publiquement.
Conclusion
La situation actuelle est préoccupante pour les créateurs de contenu qui voient leur travail utilisé sans autorisation. Un équilibre doit être trouvé pour leur permettre de continuer à créer tout en protégeant leur travail.
FAQ
Qu’est-ce que le “scraping” ?
Le scraping est une technique qui consiste à extraire des données d’un site web sans autorisation, souvent pour les utiliser à d’autres fins, comme l’entraînement d’algorithmes d’IA.
Quel est l’impact du scraping sur les créateurs de contenu ?
Le scraping peut nuire aux créateurs de contenu en leur retirant des opportunités de revenus et en compromettant la propriété de leurs œuvres.
Les plateformes comme YouTube protègent-elles les droits des créateurs ?
Bien que des efforts soient faits pour protéger les contenus, les mesures actuelles ne semblent pas suffisantes pour empêcher complètement le scraping non autorisé.
Que peuvent faire les créateurs pour protéger leur contenu ?
Ils peuvent utiliser des outils de protection de contenu, déposer des plaintes officielles et s’informer sur leurs droits en matière de propriété intellectuelle.
Que prévoit l’avenir pour l’utilisation des données en IA ?
L’usage des données pour l’IA pourrait nécessiter une réglementation accrue et une plus grande transparence sur l’origine des données utilisées pour le développement de ces technologies.
