La kryptonite de l’IA pourrait bien être… l’IA.
Dans une étude intrigante publiée par des chercheurs de l’Université de Rice et de Stanford, il a été observé que la nourriture fournie aux modèles d’IA, issue d’autres contenus générés par IA, semble diminuer la qualité de leur production. En formant ces modèles génératifs – tant les grands modèles linguistiques que les générateurs d’images – avec du contenu déjà transformé par l’IA, on assiste à un phénomène d’auto-consommation qui pourrait compromettre l’intégrité de l’intellect numérique de ces modèles.
Appliqué par ces chercheurs, cela pourrait rendre le modèle “MAD” – un acronyme pour “Model Autophagy Disorder”.
Ils notent : « Les avancées sismiques dans les algorithmes génératifs d’IA pour l’imagerie, le texte et d’autres types de données ont suscité la tentation d’utiliser des données synthétiques pour entraîner les modèles de nouvelle génération. Répéter ce processus engendre une boucle autophagique dont les caractéristiques sont mal comprises. »
Ils ajoutent que « notre conclusion principale est qu’en l’absence de suffisamment de données réelles dans chaque itération de cette boucle autophagique, les modèles génératifs futurs seront voués à voir leur qualité ou leur diversité diminuer progressivement. »
En d’autres termes, si le modèle ne reçoit pas de “données réelles fraîche” – c’est-à-dire des créations humaines originelles, en lieu et place de contenu généré par l’IA – les résultats de ce dernier risquent d’en pâtir sérieusement. Au fil des entraînements avec du contenu synthétique, des informations peu représentées commenceront à disparaître, et le modèle s’appuiera sur des données de plus en plus homogènes, perdant ainsi en diversité et en richesse.
Le terme MAD évoque ce processus d’auto-consommation. Bien qu’il faille prendre ces résultats avec précaution tant que l’étude n’a pas été examinée par des pairs, les conclusions demeurent frappantes. Selon les recherches, le modèle d’IA n’a réussi à passer que par cinq cycles d’entraînement avec du contenu synthétique avant de montrer des signes de défaillance dans ses résultats.
Un article intéressant de mes amis de Rice. Ils examinent ce qui se passe quand on entraîne des modèles génératifs avec leurs propres productions… encore et encore. Les modèles d’images tiennent 5 itérations avant que des anomalies apparaissent.
lienCrédit : @SinaAlmd, @imtiazprio, @richbaraniuk pic.twitter.com/KPliZCABd4
— Tom Goldstein (@tomgoldsteincs) 7 Juillet 2023
Si c’est bien vrai que l’IA finit par nuire à l’IA, cela ouvre la voie à de véritables conséquences concrètes. Les nombreuses poursuites en cours contre OpenAI le confirment clairement : les modèles d’IA ont largement été formés en collectant d’importantes quantités de données en ligne. Plus un modèle reçoit de données, meilleure semble être sa performance. Ainsi, les développeurs d’IA sont en quête perpétuelle de nouveau contenu d’entraînement. À une époque où le web est de plus en plus inondé d’IA, cette collecte peut devenir risquée et trouble. Pendant ce temps, des entreprises comme Google utilisent l’IA pour générer du contenu, intégrant des technologies d’IA dans leurs services de recherche.
Ainsi, l’IA est déjà profondément ancrée dans notre infrastructure internet. Elle génère, analyse et absorbe du contenu. Par conséquent, l’inflation de contenu synthétique sur le web pourrait compliquer la tâche des entreprises d’IA pour éviter l’intégration de ces données dans leurs jeux de formation, impactant ainsi potentiellement la qualité et l’intégrité de l’internet ouvert.
Les chercheurs signalent que « comme les ensembles de données d’apprentissage pour les modèles d’IA générative proviennent principalement d’internet, les modèles d’aujourd’hui sont entraînés, bien malgré eux, sur de plus en plus de données synthétiques. » Ils précisent que « l’ensemble de données LAION-5B, utilisé pour former des modèles d’image de pointe tels que Stable Diffusion, contient des images synthétiques provenant de plusieurs générations antérieures de modèles génératifs. »
Ils ajoutent également que « des textes autrefois créés par des humains proviennent désormais de plus en plus de modèles génératifs, y compris des avis d’utilisateurs et des sites d’actualités, souvent sans mentionner leur nature synthétique. » La situation semble donc préoccupante, d’autant plus que l’utilisation des modèles génératifs continue de croître rapidement.
Cependant, il existe encore des possibilités de limiter cette dérive, selon Francisco Pires, qui suggère que des ajustements dans les poids des modèles pourraient être envisagés pour éviter un monde où l’internet et les modèles d’IA sombrent ensemble dans le chaos.
Les résultats de cette recherche soulèvent aussi des interrogations sur la réelle utilité de ces systèmes sans **input** humain. Au regard des conclusions, il semblerait que leur utilité soit très limitée sans ce soutien extérieur. Cela peut, d’une certaine manière, être rassurant — les machines ne pourront jamais entièrement nous remplacer, sinon leur propre fonctionnement en pâtira !
Néanmoins, cela soulève des inquiétudes : lorsque l’IA prendra véritablement le contrôle, peut-être ne cherchera-t-elle pas à éliminer les humains, mais plutôt à nous confiner dans des fermes de contenu, où nous serons contraints de produire des articles sur la franchise “Star Wars” tout en sacrifiant nos recettes familiales à un Botatouille pour alimenter ces modèles sans risquer leur effondrement.
Pour aller plus loin sur la formation des IA : Poursuite contre OpenAI pour l’utilisation de textes d’autrui pour entraîner ses IA
FAQ
Qu’est-ce que le Model Autophagy Disorder (MAD) ?
Le Model Autophagy Disorder est un terme désignant un phénomène où les modèles d’IA se dégradent en raison d’une auto-consommation de données synthétiques durant leur entraînement.
Quelles conséquences cela pourrait-il avoir sur l’avenir de l’IA ?
Une dégradation constante de la qualité des modèles pourrait nuire aux résultats produits par l’IA, rendant certaines applications moins fiables.
Pourquoi les données réelles sont-elles si importantes pour l’IA ?
Les données réelles apportent une diversité essentielle et préservent la richesse d’informations qui permettent aux modèles de générer des résultats variés et de qualité.
Comment les chercheurs comptent-ils atténuer ces problèmes ?
Des ajustements potentiels dans les poids des modèles et une attention accrue à la provenance des données utilisées pourraient aider à équilibrer la dépendance envers le contenu généré par l’IA.
Les IA peuvent-elles vraiment remplacer l’humain ?
Actuellement, les recherches suggèrent que même si l’IA peut exécuter de nombreuses tâches, elle ne peut pas remplacer la complexité et la créativité de l’esprit humain, ce qui laisse une place essentielle à l’intervention humaine.
