La montée fulgurante de ChatGPT et ses conséquences
L’essor rapide de ChatGPT et des modèles génératifs concurrents a engendré une saturation d’informations peu fiables sur Internet. Cela compromet le développement de futurs modèles d’intelligence artificielle (IA). En effet, l’IA puise beaucoup dans les créations humaines, mais avec l’inondation de données générées par des machines, il devient inévitable que ces technologies apprennent principalement à partir d’œuvres issues d’autres IA plutôt que de l’authenticité humaine.
Le cycle de déclin de la qualité des données
À force de répéter ce cercle vicieux, le développement de l’IA se transforme en un jeu de téléphone où la qualité des contenus produits se dégrade, s’éloignant de leur essence originale. Ce phénomène, décrit dans l’industrie comme un « effondrement des modèles », signifie que les participants dans cette chaîne deviennent eux aussi moins compétents.
La valeur des données antérieures à ChatGPT
De ce fait, les données qui existaient avant l’émergence de ChatGPT gagnent une valeur précieuse. Un article récent de The Register compare cette situation à la recherche d’un « acier à faible fond ». Cet acier, produit avant les détonations des premières bombes nucléaires, est devenu rare et recherché en raison de la pollution générée par ces événements.
Une analogie historique
Tout comme les chatbots ont souillé le paysage numérique, la détonation d’armes nucléaires a libéré des radionucléides qui se sont intégrés à pratiquement tous les acier fabriqués par la suite. Cela rend certains métaux modernes inadaptés à des équipements scientifiques et médicaux précis. Curieusement, des navires de guerre datant de la Première et de la Seconde Guerre mondiale, y compris une flotte coulée en 1919, constituent encore une source majeure de cet acier rare.
Maurice Chiodo, chercheur à l’Université de Cambridge, a même qualifié les actions de l’amiral impliqué de « plus grande contribution à la médecine nucléaire ». Il explique que cela a permis de créer un approvisionnement quasi illimité en acier à faible fond.
La problématique des données contaminées
Si collecter des données antérieures à 2022 est un moyen d’éviter la contamination par l’IA, Chiodo a alerté sur la nécessité d’une source de données « propres ». Sans cela, les pionniers de l’IA, en polluant l’Internet, pourraient se retrouver avantagés grâce à un accès privilégié à une meilleure qualité de données d’entraînement.
La question de savoir si cet effondrement des modèles est un danger imminent suscite des débats. Toutefois, de nombreux chercheurs, dont Chiodo, tirent la sonnette d’alarme.
Les risques de la contamination des données
Il n’est pas encore clair à quel point l’effondrement des modèles sera problématique, mais Chiodo estime que si cela se produit, nettoyer cet environnement de données contaminées pourrait s’avérer extrêmement coûteux, voire impossible. Par exemple, une technique appelée génération augmentée par récupération (RAG), qui permet aux modèles d’IA de compléter leurs données en temps réel à partir d’Internet, ne garantit pas l’absence de modifications par l’IA. Des études montrent que cette approche peut conduire à des réponses beaucoup plus « dangereuses » de la part des chatbots.
La nécessité d’une réglementation
Le débat sur la scalabilité des modèles d’IA est également pertinent ici. Après que des entreprises comme OpenAI aient constaté une baisse de qualité avec leurs derniers modèles, il a été affirmé par certains experts que la scalabilité aurait atteint un « mur ». Si les données deviennent de plus en plus polluées, cette barrière deviendra encore plus difficile à franchir.
Chiodo suggère que des régulations plus strictes, comme le marquage du contenu généré par l’IA, pourraient aider à atténuer ce problème. Cependant, sa mise en œuvre serait complexe. Cela pourrait également signifier que l’industrie, qui s’oppose souvent à l’ingérence gouvernementale, pourrait se nuire à elle-même.
Quoi qu’il en soit, des personnalités comme Rupprecht Podszun, professeur de droit à l’Université Heinrich Heine, affirment qu’actuellement, l’innovation prime sur la régulation, ce qui crée un terrain instable pour l’avenir de l’IA.
FAQ
Quel est le principal risque associé à l’utilisation de données générées par l’IA ?
Le principal risque est que les modèles apprennent principalement à partir de données biaisées ou polluées, ce qui diminue leur performance et leur fiabilité.
Pourquoi est-il important de conserver des données “propres” ?
Les données “propres” permettent un meilleur entraînement des modèles d’IA, évitant des erreurs et confusions qui pourraient découler de données contaminées.
Comment les anciennes données peuvent-elles influencer le développement de l’IA ?
Les anciennes données offrent un aperçu plus authentique des comportements et des considérations humaines, essentiel pour concevoir des modèles d’IA plus efficaces et fiables.
Quelles mesures peuvent être prises pour réguler l’IA ?
Des réglementations pourraient inclure l’obligation de déclarer les données consommées par les modèles d’IA et des normes de qualité pour garantir l’intégrité des données utilisées dans leur développement.
L’utilisation d’acier à faible fond peut-elle avoir des applications autres que médicales ?
Oui, l’acier à faible fond est également crucial dans d’autres domaines nécessitant des matériaux de haute précision, comme l’ingénierie aérospatiale et nucléaire.
