Intelligence Artificielle

Les Modèles d’IA Se Dégradent en Ingérant Trop de Données Générées par l’IA

Les Modèles d'IA Se Dégradent en Ingérant Trop de Données Générées par l'IA

L’Intelligence Artificielle et ses Défis de Données

Alors que les PDG se précipitent pour investir dans l’intelligence artificielle (IA), un problème majeur émerge : les modèles formés sur des données web après l’arrivée de ChatGPT en 2022 absorbent des informations générées par l’IA elle-même. Ce phénomène, que l’on pourrait qualifier de cannibalisme technologique, risque de provoquer des complications techniques grandissantes qui menacent l’ensemble de l’industrie.

Préoccupation sur l’Effondrement des Modèles

Dans un article éclairant publié sur The Register, le chroniqueur technologique Steven Vaughn-Nichols met en garde contre ce qu’il appelle le « modèle effondré ». Ce terme désigne une situation où les modèles de langage de grande taille, lorsqu’ils sont soumis à des données synthétiques produites par des IA, dérivent de leur fonction initiale. Même les efforts pour éviter ce phénomène semblent être d’un autre ordre de désastre.

Une Pénurie Imminente de Données Authentiques

Plusieurs médias, y compris Futurism, font état d’une dérive alarmante dans le secteur de l’IA, où l’on se dirige vers un moment où toutes les données d’entraînement authentiques — c’est-à-dire celles créées par des humains — seront épuisées. Des experts, comme Elon Musk, suggèrent même que ce moment est déjà là.

A lire :  Microsoft IA : Éliminez les Bruits de Grignotage de Vos Vidéos Appels

Solutions Apocalypse : RAG et ses Limites

Pour surmonter ce défi appelé « garbage in/garbage out », des géants de l’industrie tels que Google, OpenAI, et Anthropic ont exploré une méthode connue sous le nom de génération augmentée par recherche (RAG). Cette technique consiste à connecter les modèles de langage à Internet pour qu’ils puissent rechercher les réponses lorsqu’ils se trouvent devant des requêtes sans réponses adéquates dans leurs données d’entraînement.

Cependant, il existe un hic majeur : l’Internet abonde en contenus de mauvaise qualité générés par des IA, souvent remplis d’erreurs. Comme le souligne une étude récente présentée lors d’une conférence de linguistique computationnelle, plusieurs des derniers modèles de langage, tels que GPT-4o et Claude-3.5-Sonnet, ont donné des réponses « dangereuses » plus fréquemment que leurs homologues non-RAG. Cela soulève de sérieuses préoccupations, notamment la désinformation et les effets négatifs sur la sécurité personnelle.

Nécessité d’un Usage Responsable

Amanda Stent, responsable de la recherche et de la stratégie en IA chez Bloomberg, a expliqué que cette découverte a des implications vastes, car les utilisateurs d’Internet interagissent quotidiennement avec des systèmes reposant sur le RAG. Il est crucial que les pratiquants de l’IA utilisent cette technologie de manière responsable, surtout dans des applications comme les agents de support client et les systèmes de réponses à des questions.

Vers de Nouvelles Solutions

Face à la perspective d’un épuisement des données d’entraînement, que faire ? Vaughn-Nichols mentionne que certains suggèrent de mélanger des données authentiques et synthétiques pour obtenir un ensemble de données de qualité. Néanmoins, cela suppose que les humains continuent à produire du contenu réel pendant que l’industrie de l’IA compromet les incitations à le faire, tout en s’appropriant les travaux de manière non autorisée.

A lire :  Copilot Santé de Microsoft : Lien entre Apple Health, Fitbit et Dossiers Médicaux Hospitaliers

Un autre chemin, selon Vaughn-Nichols, semble déjà être en marche : l’investissement continu dans l’IA jusqu’à ce que l’effondrement des modèles devienne si évident qu’il ne pourra plus être ignoré, même par des dirigeants d’entreprise peu réfléchis.

FAQ

Quelle est la principale préoccupation face à l’effondrement des modèles d’IA ?

Les modèles de langage risquent de fournir des réponses inexactes ou dangereuses en raison d’une consommation excessive de données générées par d’autres IA plutôt que par des humains.

Quelles entreprises mènent des recherches sur les solutions à ces problèmes ?

Des entreprises majeures comme Google, OpenAI, et Anthropic explorent des méthodes comme la RAG (génération augmentée par recherche) pour améliorer la qualité des réponses des modèles.

Pourquoi est-il essentiel de continuer à créer du contenu humain ?

La création de contenu humain reste cruciale pour que les modèles d’IA soient formés sur des informations précises et fiables, évitant ainsi la dérive vers des réponses inexactes ou biaisées.

Comment les utilisateurs peuvent-ils interagir en toute sécurité avec des systèmes basés sur l’IA ?

Les utilisateurs doivent rester vigilants et critiquer les réponses fournies par les IA, sachant qu’elles peuvent contenir des erreurs ou des désinformations.

Quels sont les dangers potentiels des réponses générées par l’IA de mauvaise qualité ?

Ces réponses peuvent propager la désinformation, compromettre la sécurité personnelle et causer des désagréments dans des applications critiques comme le service client.