Perplexity pris en flagrant délit de violation des règles

Facebook X

Depuis plus de vingt ans, des éditeurs glissent des pièges dans leurs contenus pour débusquer les copieurs. Ce stratagème renaît aujourd’hui sous une forme numérique: des plateformes en ligne s’en servent pour repérer les aspirateurs de données qui nourrissent des outils d’IA sans permission. Un récent bras de fer autour de Reddit et de Perplexity en est une illustration marquante.

Sommaire

Des mots-pièges pour tester les copieurs

Au début des années 2000, un grand dictionnaire américain a inventé un faux mot, « esquivalience », présenté comme la « volonté d’éviter ses responsabilités officielles ». Le terme n’avait aucune existence réelle; il ne servait qu’à vérifier si un concurrent recopiait les définitions. Ce type d’ajouts fantômes porte un nom: les mountweazels. Leur principe est simple: si le piège réapparaît ailleurs, la preuve de copie devient difficile à contester.

Du papier au web

Cette idée a migré du monde de l’édition vers l’internet. Désormais, ce ne sont plus seulement des mots inventés, mais des pages tests, des liens invisibles au public, ou des signaux discrets intégrés aux contenus pour savoir qui collecte quoi.

A lire : ChatGPT : Une Nouvelle Phase de Déclin des Utilisateurs

Le piège de Reddit et l’IA de Perplexity

Selon Reddit, la plateforme a publié un post expérimental qu’seul le moteur de recherche de Google pouvait explorer. En théorie, personne d’autre ne devait pouvoir y accéder. Pourtant, en quelques heures, le moteur de recherche dopé à l’IA de Perplexity aurait restitué le contenu de ce message-piège.

Reddit en tire une conclusion sévère: Perplexity récupérerait les résultats Google, les ingérerait dans un modèle d’IA, puis présenterait le tout comme un nouveau produit. Pour Reddit, c’est une captation de valeur: l’information vient d’ailleurs, mais l’attention et le bénéfice restent sur l’interface d’IA.

Un marché des données devenu stratégique

Les modèles de langage de grande taille (LLM) ont besoin d’énormes corpus pour fonctionner. Cette appétence a mis sur le devant de la scène une pratique ancienne: le scraping, c’est‑à‑dire l’extraction automatisée de contenus publics. Une grande partie de ces données est protégée par le droit d’auteur ou soumise à des conditions d’utilisation.

Face à cela, des sites comme Reddit ont changé de stratégie:

bloquer les aspirateurs non autorisés,
proposer des licences payantes,
monétiser l’accès à leurs données structurées.

Reddit prévoit de générer des centaines de millions de dollars sur plusieurs années grâce à ces accords de data licensing.

Qui est visé par la plainte de Reddit

Outre Perplexity, Reddit cible trois acteurs spécialisés dans la collecte de données:

SerpApi (États‑Unis),
Oxylabs (Lituanie),
AWMProxy (Russie), déjà associé par le passé à un réseau de logiciels malveillants.

Bien avant l’explosion de l’IA, ces sociétés aspiraient massivement des résultats de recherche pour fournir des services de SEO. Tant que Google envoyait du trafic vers les sites sources, l’écosystème y trouvait un équilibre. Mais les chatbots changent la donne: ils répondent directement, citent de façon inconstante et renvoient peu de visiteurs vers les pages d’origine.

A lire : L'Augmentation des Chrétiens qui Considèrent l'IA Comme Démoniaque

Comment Reddit décrit la mécanique

D’après Reddit, après avoir été sommé de cesser son scraping direct, Perplexity aurait contourné le problème en achetant des ensembles de données auprès de ces intermédiaires. À l’arrivée, Reddit dit avoir observé une multiplication par quarante des références à ses contenus dans les réponses de l’outil de Perplexity—un signal, selon la plateforme, que ses données circulent malgré ses restrictions.

Pourquoi cette affaire compte

Elle cristallise le conflit entre la création de contenu et les interfaces d’IA qui le résument.
Elle interroge la chaîne de valeur: qui paie pour la donnée et qui en profite?
Elle accélère la mise en place de contrats, de barrières techniques et de contentieux pour cadrer l’accès aux informations en ligne.
Elle préfigure un web où l’accès aux données de qualité passera de plus en plus par des licences et des API contrôlées.

FAQ

Qu’est-ce qu’un mountweazel, concrètement ?

Un mountweazel est un leurre inséré volontairement dans un contenu (dictionnaire, base de données, carte, site web) pour identifier les copies non autorisées. S’il réapparaît ailleurs, il sert de marqueur de plagiat ou de scraping.

Le scraping est-il toujours illégal ?

Non. Le contexte compte: droits d’auteur, conditions d’utilisation, mesures techniques, finalité (recherche, archivage, usage commercial), et juridictions. Même quand des pages sont publiques, leur réutilisation peut être restreinte. Les litiges actuels visent surtout des usages massifs et commerciaux sans accord.

Comment les sites se protègent-ils ?

Ils combinent fichiers robots, rate limiting, empreintes numériques, pièges (pages tests), blocage d’IP, et licences via API. De plus en plus, l’accès aux données passe par des contrats qui définissent clairement ce qui est autorisé.

A lire : Claude Devance ChatGPT dans l'App Store Américain en Plein Conflit sur l'IA au Pentagone

Pourquoi les chatbots renvoient-ils moins de trafic aux sites sources ?

Parce qu’ils synthétisent l’information directement dans la réponse. L’utilisateur obtient ce qu’il cherche sans cliquer. Même avec des citations, la proportion de lecteurs qui visitent la source reste faible par rapport à un moteur classique.

Que peuvent faire les créateurs de contenu ?

Définir des CGU explicites,
utiliser des outils anti-scraping,
proposer des API payantes,
surveiller la réutilisation de leurs données,
et, si nécessaire, engager des actions légales ou négocier des accords de licence.

Perplexity pris en flagrant délit de violation des règles

Des mots-pièges pour tester les copieurs

Du papier au web

Le piège de Reddit et l’IA de Perplexity

Un marché des données devenu stratégique

Qui est visé par la plainte de Reddit

Comment Reddit décrit la mécanique

Pourquoi cette affaire compte

FAQ

Qu’est-ce qu’un mountweazel, concrètement ?

Le scraping est-il toujours illégal ?

Comment les sites se protègent-ils ?

Pourquoi les chatbots renvoient-ils moins de trafic aux sites sources ?

Que peuvent faire les créateurs de contenu ?

Share This Post:

Cela peut vous intéresser

Un nouvel algorithme pour déceler les faux profils de rencontres en ligne.

Le Robot de Ping-Pong ‘Ace’ de Sony Surpasse les Joueurs Humains d’Élite.

Tencent Déploie la Version Bêta de QClaw, Son Agent IA, pour Utilisateurs Mondiaux sur Windows et Mac

Google Cloud Divise ses AI TPUs pour Rivaliser avec Nvidia