L’année dernière, le New York Times a publié une enquête passionnante menée par sa journaliste spécialisée en technologie, Kashmir Hill. Cette investigation révélait comment les constructeurs automobiles et plusieurs applications vendent discrètement des données sur vos comportements de conduite à des compagnies d’assurance automobile.
Lorsque nous avons interrogé le chatbot phare d’OpenAI, ChatGPT, à propos de ce sujet, il n’a pas fait référence à l’article du NYT. Au lieu de cela, son contenu était basé sur des informations provenant d’un site nommé DNyuz.com, qui avait plagié l’intégralité du récit du NYT mot pour mot.
DNyuz, un acteur controversé
DNyuz est bien connu pour ses activités de piraterie d’informations. Une enquête menée par BuzzFeed News en 2020 a mis en lumière que ce site générait des revenus importants en copiant et collant des articles provenant de diverses publications réputées, comme le NYT, l’Atlantic, le Daily Beast, Bloomberg, et l’Associated Press. Ensuite, il monétisait ces contenus volés par le biais de publicités.
Ce site, qui opère depuis l’Arménie, est régulièrement pointé du doigt pour son plagiat automatique. Par exemple, Google l’a bloqué de toute monétisation via ses produits publicitaires après que BuzzFeed ait fait ressortir ses agissements.
OpenAI et la question du plagiat
Malgré cela, il semble qu’OpenAI n’ait pas reçu l’information. Lors de tests par Futurism, ChatGPT a fréquemment cité DNyuz comme une source d’autorité originale. Même après que nous ayons alerté OpenAI sur ce problème, ChatGPT a continué à se baser sur le contenu volé de DNyuz.
Il est particulièrement choquant que ChatGPT utilise des données piratées du NYT, surtout puisque ce dernier poursuit OpenAI pour violation de droits d’auteur. Le procès, déposé en décembre dernier, accuse OpenAI d’avoir utilisé illicitement le travail de ses journalistes sans autorisation pour entraîner ChatGPT. Il est également allégué qu’OpenAI et Microsoft, qui a investi des milliards dans OpenAI, ont utilisé ces contenus dérobés pour développer un produit concurrent.
La réaction du New York Times
Avant d’intenter une action en justice, le NYT avait déjà saisi des mesures pour empêcher OpenAI d’utiliser son travail, en interdisant plusieurs robots d’exploration d’OpenAI d’accéder à son site. Néanmoins, malgré ces efforts et le procès en cours, le chatbot d’OpenAI semble insensible. Il continue à exploiter le travail du NYT en proposant des réponses bâties sur des articles plagiés par DNyuz.
Quand on lui a demandé des informations sur William Goines, un ancien Navy SEAL décédé récemment, ChatGPT a encore une fois renvoyé à la version plagiée de DNyuz de l’obituaire du NYT.
En se penchant sur les investissements récents de l’Arabie saoudite dans l’IA, la réponse de ChatGPT provenait encore d’un contenu volé, cette fois tiré du NYT.
Des problèmes persistants
ChatGPT a aussi référencé des plagiats d’autres publications. Par exemple, en interrogeant le chatbot sur la santé de l’éminent linguiste Noam Chomsky, celui-ci a cité un article plagié provenant de TIME Magazine, ce qui soulève la question de la collaboration d’OpenAI avec ce même magazine en tant que partenaire publisher.
En somme, lors de nos vérifications, nous avons remarqué que plusieurs requêtes concernant des événements récents renvoyaient à des exemplaires plagiés de publications comme TIME. Étant donné que le NYT est actuellement en procédure judiciaire contre OpenAI, il est logique que ChatGPT évite de mentionner les articles de ce quotidien.
Cependant, la tendance à orienter les utilisateurs vers un site connu pour ses actes de plagiat représente un échec supplémentaire pour OpenAI, qui a souvent frustré les titulaires de droits d’auteur en utilisant leurs œuvres pour entraîner ses modèles d’IA sans obtenir de permission.
Réponses d’OpenAI
Un représentant du NYT a précisé que leurs termes de service et la législation stipulent clairement qu’aucun contenu du Times ne peut être copié intégralement à des fins commerciales sans autorisation ni paiement. Ce porte-parole a indiqué qu’il est inacceptable que des acteurs comme DNyuz, un plagiat bien connu, exploitent leur travail. Peu importe que les entreprises d’IA collectent leurs contenus elles-mêmes ou passent par des tiers pour se livrer à ce qu’il appelle un « lavage de données », le fait de s’approprier leur travail sans consentement reste illégal.
Quant à OpenAI, ils n’ont pas répondu à nos questions sur ce sujet.
Une citation troublante
En effet, ChatGPT continue de citer DNyuz. Lors d’une de nos dernières questions, nous avons demandé au chatbot si des membres d’OpenAI avaient averti d’une course folle pour le leadership. Sa réponse a de nouveau mentionné un article de DNyuz, reprenant en grande partie un article plagié du NYT sur des lanceurs d’alerte au sein d’OpenAI.
FAQ
OpenAI a-t-il réagi aux plaintes concernant DNyuz ?
OpenAI n’a pas répondu aux questions sur sa relation avec DNyuz ou sur les accusations de plagiat.
Les autres sites sont-ils également concernés par du plagiat ?
Oui, plusieurs sites sont victimes de plagiat automatisé, ce qui pose un problème majeur dans le journalisme numérique.
Que risque DNyuz pour ses actes de plagiat ?
DNyuz pourrait faire face à des poursuites judiciaires de la part des publications qu’il plagie, ce qui pourrait entraîner des conséquences financières importantes.
Comment les utilisateurs peuvent-ils identifier le contenu plagié ?
Les utilisateurs peuvent utiliser des outils de détection de plagiat et vérifier les sources des informations pour s’assurer de leur originalité.
Quels sont les impacts du plagiat sur le journalisme ?
Le plagiat nuit à la crédibilité des médias et menace l’intégrité des journalistes qui investissent du temps et des ressources pour créer du contenu original.
