Depuis plus de vingt ans, des éditeurs glissent des pièges dans leurs contenus pour débusquer les copieurs. Ce stratagème renaît aujourd’hui sous une forme numérique: des plateformes en ligne s’en servent pour repérer les aspirateurs de données qui nourrissent des outils d’IA sans permission. Un récent bras de fer autour de Reddit et de Perplexity en est une illustration marquante.
Des mots-pièges pour tester les copieurs
Au début des années 2000, un grand dictionnaire américain a inventé un faux mot, « esquivalience », présenté comme la « volonté d’éviter ses responsabilités officielles ». Le terme n’avait aucune existence réelle; il ne servait qu’à vérifier si un concurrent recopiait les définitions. Ce type d’ajouts fantômes porte un nom: les mountweazels. Leur principe est simple: si le piège réapparaît ailleurs, la preuve de copie devient difficile à contester.
Du papier au web
Cette idée a migré du monde de l’édition vers l’internet. Désormais, ce ne sont plus seulement des mots inventés, mais des pages tests, des liens invisibles au public, ou des signaux discrets intégrés aux contenus pour savoir qui collecte quoi.
Le piège de Reddit et l’IA de Perplexity
Selon Reddit, la plateforme a publié un post expérimental qu’seul le moteur de recherche de Google pouvait explorer. En théorie, personne d’autre ne devait pouvoir y accéder. Pourtant, en quelques heures, le moteur de recherche dopé à l’IA de Perplexity aurait restitué le contenu de ce message-piège.
Reddit en tire une conclusion sévère: Perplexity récupérerait les résultats Google, les ingérerait dans un modèle d’IA, puis présenterait le tout comme un nouveau produit. Pour Reddit, c’est une captation de valeur: l’information vient d’ailleurs, mais l’attention et le bénéfice restent sur l’interface d’IA.
Un marché des données devenu stratégique
Les modèles de langage de grande taille (LLM) ont besoin d’énormes corpus pour fonctionner. Cette appétence a mis sur le devant de la scène une pratique ancienne: le scraping, c’est‑à‑dire l’extraction automatisée de contenus publics. Une grande partie de ces données est protégée par le droit d’auteur ou soumise à des conditions d’utilisation.
Face à cela, des sites comme Reddit ont changé de stratégie:
- bloquer les aspirateurs non autorisés,
- proposer des licences payantes,
- monétiser l’accès à leurs données structurées.
Reddit prévoit de générer des centaines de millions de dollars sur plusieurs années grâce à ces accords de data licensing.
Qui est visé par la plainte de Reddit
Outre Perplexity, Reddit cible trois acteurs spécialisés dans la collecte de données:
- SerpApi (États‑Unis),
- Oxylabs (Lituanie),
- AWMProxy (Russie), déjà associé par le passé à un réseau de logiciels malveillants.
Bien avant l’explosion de l’IA, ces sociétés aspiraient massivement des résultats de recherche pour fournir des services de SEO. Tant que Google envoyait du trafic vers les sites sources, l’écosystème y trouvait un équilibre. Mais les chatbots changent la donne: ils répondent directement, citent de façon inconstante et renvoient peu de visiteurs vers les pages d’origine.
Comment Reddit décrit la mécanique
D’après Reddit, après avoir été sommé de cesser son scraping direct, Perplexity aurait contourné le problème en achetant des ensembles de données auprès de ces intermédiaires. À l’arrivée, Reddit dit avoir observé une multiplication par quarante des références à ses contenus dans les réponses de l’outil de Perplexity—un signal, selon la plateforme, que ses données circulent malgré ses restrictions.
Pourquoi cette affaire compte
- Elle cristallise le conflit entre la création de contenu et les interfaces d’IA qui le résument.
- Elle interroge la chaîne de valeur: qui paie pour la donnée et qui en profite?
- Elle accélère la mise en place de contrats, de barrières techniques et de contentieux pour cadrer l’accès aux informations en ligne.
- Elle préfigure un web où l’accès aux données de qualité passera de plus en plus par des licences et des API contrôlées.
FAQ
Qu’est-ce qu’un mountweazel, concrètement ?
Un mountweazel est un leurre inséré volontairement dans un contenu (dictionnaire, base de données, carte, site web) pour identifier les copies non autorisées. S’il réapparaît ailleurs, il sert de marqueur de plagiat ou de scraping.
Le scraping est-il toujours illégal ?
Non. Le contexte compte: droits d’auteur, conditions d’utilisation, mesures techniques, finalité (recherche, archivage, usage commercial), et juridictions. Même quand des pages sont publiques, leur réutilisation peut être restreinte. Les litiges actuels visent surtout des usages massifs et commerciaux sans accord.
Comment les sites se protègent-ils ?
Ils combinent fichiers robots, rate limiting, empreintes numériques, pièges (pages tests), blocage d’IP, et licences via API. De plus en plus, l’accès aux données passe par des contrats qui définissent clairement ce qui est autorisé.
Pourquoi les chatbots renvoient-ils moins de trafic aux sites sources ?
Parce qu’ils synthétisent l’information directement dans la réponse. L’utilisateur obtient ce qu’il cherche sans cliquer. Même avec des citations, la proportion de lecteurs qui visitent la source reste faible par rapport à un moteur classique.
Que peuvent faire les créateurs de contenu ?
- Définir des CGU explicites,
- utiliser des outils anti-scraping,
- proposer des API payantes,
- surveiller la réutilisation de leurs données,
- et, si nécessaire, engager des actions légales ou négocier des accords de licence.
