L'Impact Négatif de ChatGPT sur l'Avenir de l'IA : Un Obstacle Inattendu

Sommaire

La montée fulgurante de ChatGPT et ses conséquences

L’essor rapide de ChatGPT et des modèles génératifs concurrents a engendré une saturation d’informations peu fiables sur Internet. Cela compromet le développement de futurs modèles d’intelligence artificielle (IA). En effet, l’IA puise beaucoup dans les créations humaines, mais avec l’inondation de données générées par des machines, il devient inévitable que ces technologies apprennent principalement à partir d’œuvres issues d’autres IA plutôt que de l’authenticité humaine.

Le cycle de déclin de la qualité des données

À force de répéter ce cercle vicieux, le développement de l’IA se transforme en un jeu de téléphone où la qualité des contenus produits se dégrade, s’éloignant de leur essence originale. Ce phénomène, décrit dans l’industrie comme un « effondrement des modèles », signifie que les participants dans cette chaîne deviennent eux aussi moins compétents.

La valeur des données antérieures à ChatGPT

De ce fait, les données qui existaient avant l’émergence de ChatGPT gagnent une valeur précieuse. Un article récent de The Register compare cette situation à la recherche d’un « acier à faible fond ». Cet acier, produit avant les détonations des premières bombes nucléaires, est devenu rare et recherché en raison de la pollution générée par ces événements.

A lire : L'IA de Bing Refuse de Créer des Images Photorealistes de Femmes, Évoquant des Risques de Sécurité.

Une analogie historique

Tout comme les chatbots ont souillé le paysage numérique, la détonation d’armes nucléaires a libéré des radionucléides qui se sont intégrés à pratiquement tous les acier fabriqués par la suite. Cela rend certains métaux modernes inadaptés à des équipements scientifiques et médicaux précis. Curieusement, des navires de guerre datant de la Première et de la Seconde Guerre mondiale, y compris une flotte coulée en 1919, constituent encore une source majeure de cet acier rare.

Maurice Chiodo, chercheur à l’Université de Cambridge, a même qualifié les actions de l’amiral impliqué de « plus grande contribution à la médecine nucléaire ». Il explique que cela a permis de créer un approvisionnement quasi illimité en acier à faible fond.

La problématique des données contaminées

Si collecter des données antérieures à 2022 est un moyen d’éviter la contamination par l’IA, Chiodo a alerté sur la nécessité d’une source de données « propres ». Sans cela, les pionniers de l’IA, en polluant l’Internet, pourraient se retrouver avantagés grâce à un accès privilégié à une meilleure qualité de données d’entraînement.

La question de savoir si cet effondrement des modèles est un danger imminent suscite des débats. Toutefois, de nombreux chercheurs, dont Chiodo, tirent la sonnette d’alarme.

Les risques de la contamination des données

Il n’est pas encore clair à quel point l’effondrement des modèles sera problématique, mais Chiodo estime que si cela se produit, nettoyer cet environnement de données contaminées pourrait s’avérer extrêmement coûteux, voire impossible. Par exemple, une technique appelée génération augmentée par récupération (RAG), qui permet aux modèles d’IA de compléter leurs données en temps réel à partir d’Internet, ne garantit pas l’absence de modifications par l’IA. Des études montrent que cette approche peut conduire à des réponses beaucoup plus « dangereuses » de la part des chatbots.

A lire : Google Nomme un Responsable des Médicaments Anti-Obésité Comme Nouveau CFO, Malgré Son Manque d'Expérience Technologique

La nécessité d’une réglementation

Le débat sur la scalabilité des modèles d’IA est également pertinent ici. Après que des entreprises comme OpenAI aient constaté une baisse de qualité avec leurs derniers modèles, il a été affirmé par certains experts que la scalabilité aurait atteint un « mur ». Si les données deviennent de plus en plus polluées, cette barrière deviendra encore plus difficile à franchir.

Chiodo suggère que des régulations plus strictes, comme le marquage du contenu généré par l’IA, pourraient aider à atténuer ce problème. Cependant, sa mise en œuvre serait complexe. Cela pourrait également signifier que l’industrie, qui s’oppose souvent à l’ingérence gouvernementale, pourrait se nuire à elle-même.

Quoi qu’il en soit, des personnalités comme Rupprecht Podszun, professeur de droit à l’Université Heinrich Heine, affirment qu’actuellement, l’innovation prime sur la régulation, ce qui crée un terrain instable pour l’avenir de l’IA.

FAQ

Quel est le principal risque associé à l’utilisation de données générées par l’IA ?

Le principal risque est que les modèles apprennent principalement à partir de données biaisées ou polluées, ce qui diminue leur performance et leur fiabilité.

Pourquoi est-il important de conserver des données “propres” ?

Les données “propres” permettent un meilleur entraînement des modèles d’IA, évitant des erreurs et confusions qui pourraient découler de données contaminées.

Comment les anciennes données peuvent-elles influencer le développement de l’IA ?

Les anciennes données offrent un aperçu plus authentique des comportements et des considérations humaines, essentiel pour concevoir des modèles d’IA plus efficaces et fiables.

Quelles mesures peuvent être prises pour réguler l’IA ?

Des réglementations pourraient inclure l’obligation de déclarer les données consommées par les modèles d’IA et des normes de qualité pour garantir l’intégrité des données utilisées dans leur développement.

A lire : Révélations Sur le Créateur du Groupe "Indie" : Il Admet Que Ce N'était Pas de l'Humain.

L’utilisation d’acier à faible fond peut-elle avoir des applications autres que médicales ?

Oui, l’acier à faible fond est également crucial dans d’autres domaines nécessitant des matériaux de haute précision, comme l’ingénierie aérospatiale et nucléaire.