De nouvelles données montrent que plus de la moitié d’Internet est désormais envahie par des contenus de piètre qualité générés par l’IA.

Sommaire

Où en est vraiment la production d’articles par l’IA ?

Bonne nouvelle à relativiser : un peu plus de la moitié des nouveaux articles publiés en ligne seraient aujourd’hui rédigés par des systèmes d’IA, d’après une analyse mise en avant par Axios. Ce n’est pas le raz-de-marée absolu que beaucoup craignaient. Après une période d’explosion du contenu automatisé, la tendance semble se stabiliser autour d’un équilibre entre textes écrits par des humains et textes générés par des modèles.

Comment l’étude a été menée

L’agence SEO Graphite a examiné un échantillon aléatoire d’environ 65 000 articles en anglais, publiés entre janvier 2020 et mai 2025. Pour classer chaque texte, elle s’est appuyée sur un détecteur baptisé Surfer. Si au moins 50 % d’un article paraissait rédigé par un grand modèle de langage, l’article était compté comme « généré par l’IA ». Autrement dit, on ne parle pas uniquement de textes entièrement automatiques : un contenu hybride, moitié humain, moitié machine, bascule du côté « IA » dès que la part machine dépasse le seuil fixé.

A lire : Microsoft : La publicité de l'IA au Super Bowl qui va enflammer les esprits les moins avertis.

Un contexte de déferlante

Depuis la sortie publique de ChatGPT en novembre 2022, la quantité de textes automatiques a bondi. La part estimée d’articles générés est passée d’environ 10 % fin 2022 à plus de 40 % en 2024. Puis, après cette hausse fulgurante, la courbe s’est tassée.

Une montée rapide, puis un plateau

Le pic aurait été atteint vers novembre 2024, avant un palier durable. Ces derniers mois, la proportion de nouveaux contenus oscille autour du 50/50. En mai 2025, les articles de type IA représenteraient environ 52 % des nouvelles publications — un chiffre qui bouge d’un mois à l’autre, avec des périodes où les humains repassent temporairement majoritaires.

Attention aux angles morts de la mesure

Deux limites importantes invitent à la prudence :

La base explorée est issue de Common Crawl, une vaste collecte de pages web. Or, nombre de sites payants ou de médias soucieux de leurs données bloquent désormais ce robot d’indexation, notamment parce que les entreprises d’IA s’en sont servies pour entraîner leurs modèles. Résultat : certains contenus, très probablement rédigés par des humains, pourraient être sous-représentés dans l’analyse.
Les détecteurs d’IA ne sont pas infaillibles. Dans ses propres tests, Graphite observe que Surfer classe comme « IA » environ 4,2 % d’articles en réalité humains (faux positifs), alors qu’il confond des textes d’IA avec des textes humains dans seulement 0,6 % des cas (faux négatifs). Ces marges d’erreur ne changent pas la tendance générale, mais elles ajoutent de l’incertitude.

Pourquoi la progression de l’IA ralentit

Graphite pointe un facteur clé : les fermes de contenu automatisées produisent beaucoup, mais leurs textes de faible qualité seraient moins mis en avant par les moteurs de recherche et moins réutilisés dans les réponses des chatbots. Un autre rapport de l’agence suggère ainsi que, dans Google Search, environ 86 % des articles mis en avant sont rédigés par des humains, contre 14 % écrits par l’IA. Autrement dit, produire massivement du contenu automatique ne garantit ni visibilité ni trafic.

A lire : Lancement d'une plateforme d'IA pour le suivi de la santé familiale par les fondateurs de Fitbit.

Des frontières de plus en plus floues

Sur le terrain, la distinction « humain vs machine » devient poreuse. De plus en plus d’auteurs utilisent des outils d’IA pour accélérer la recherche, générer des brouillons ou améliorer la clarté. Les détecteurs peuvent alors être déconcertés par ces textes hybrides. Comme le résume Stefano Soatto (UCLA et AWS), on assiste moins à une opposition qu’à une symbiose entre l’humain et la machine. La création se transforme : l’IA devient un copilote, et non un substitut complet, tandis que l’évaluation de l’originalité et de la qualité prend davantage d’importance.

En bref

La part de nouveaux articles générés par l’IA tourne désormais autour de 50 % et semble stagner.
L’essor a été rapide après fin 2022, avant d’atteindre un palier fin 2024.
Des biais d’échantillonnage (Common Crawl) et des limites des détecteurs obligent à nuancer les chiffres.
Les moteurs de recherche privilégieraient toujours majoritairement les contenus humains.
La création de contenu devient hybride, avec une collaboration grandissante entre auteurs et outils d’IA.

FAQ — Questions fréquentes

Comment un lecteur peut-il repérer un texte probablement généré par l’IA ?

Style très uniforme, phrases génériques, absence d’exemples concrets ou d’angles originaux.
Répétitions, transitions trop lisses, citations vagues sans sources précises.
Erreurs factuelles « confiantes » ou anachronismes. Le croisement des sources reste la meilleure défense.

Les chiffres varient-ils selon les thématiques et les langues ?

Oui, fortement. Les domaines à faible barrière d’entrée (guides, contenus génériques, agrégations) sont plus sensibles à l’automatisation. Les secteurs nécessitant expertise, reporting ou accès terrain restent plus humains. Hors anglais, la production automatique progresse, mais la qualité des modèles et les données d’entraînement peuvent limiter l’essor.

A lire : Trump enjointe les États à ne pas protéger les enfants des dangers de l'IA.

Que peuvent faire les rédactions pour préserver la qualité ?

Mettre en place des chartes éditoriales sur l’usage de l’IA.
Exiger des sources vérifiables et un fact-checking humain.
Utiliser l’IA pour des tâches d’assistance (recherche, titraille, relecture) sans lui confier l’initiative éditoriale.

Les détecteurs d’IA sont-ils fiables pour décider d’une sanction (plagiat, triche) ?

Non. Ils sont utiles en indicateurs, pas en juges. Leur usage doit s’accompagner d’une revue humaine, de demandes de brouillons et de traces de travail (notes, sources, versions), surtout en contexte scolaire ou professionnel.

Quel impact pour le référencement des sites web ?

À court terme, les moteurs favorisent la pertinence, l’expertise et l’utilité réelle. Les contenus purement automatisés, pauvres en valeur, risquent d’être déclassés. Miser sur l’originalité, la mise à jour régulière et l’autorité thématique reste la stratégie la plus solide.