Pénurie de Données
Avec l’épuisement des données de formation, de nombreuses entreprises d’IA se tournent vers ce qu’on appelle les « données synthétiques ». Cependant, l’efficacité de cette approche reste incertaine. Selon un article du New York Times, les données synthétiques apparaissent comme une solution simple face à la pénurie croissante et aux autres défis liés aux données d’entraînement pour l’intelligence artificielle. En effet, si l’IA parvient à se développer en utilisant des données générées par une autre IA, cela pourrait non seulement résoudre le problème de la manque de données pour le training, mais aussi prévenir d’éventuels litiges de droits d’auteur liés à l’IA.
Cependant, des entreprises telles qu’Anthropic, Google et OpenAI tentent de créer des données synthétiques de qualité, mais pour l’instant, aucune d’elles n’a encore trouvé la recette magique. Jusqu’à présent, les modèles d’IA alimentés par des données synthétiques ont rencontré divers problèmes. Jathan Sadowski, un chercheur australien en IA, a qualifié ces anomalies de « Habsburg AI », en référence à la célèbre dynastie Habsbourg, connue pour ses traits physionomiques particuliers dus à des mariages intrafamiliaux.
Dans un tweet, Sadowski a décrit ce phénomène comme « un système tellement influencé par les résultats d’autres IA génératives qu’il devient un mutant consanguin, généralement doté de caractéristiques exagérées et grotesques ». Cela rappelle la fameuse « mâchoire Habsbourg ». Lors d’une interview estivale avec Futurism, Richard G. Baraniuk de l’Université de Rice a introduit sa propre terminologie pour ce problème : le « trouble d’autophagie des modèles », ou « MAD » pour abréger. En effet, il a souligné que seulement cinq générations de consanguinité entre modèles d’IA suffisent pour que les résultats deviennent totalement aberrants.
Solutions Synthétiques
La question primordiale réside alors dans la capacité des entreprises d’IA à développer des données synthétiques sans provoquer une défaillance de leurs systèmes. D’après le NYT, OpenAI et Anthropic, qui ont été fondés par d’anciens employés d’OpenAI soucieux d’une IA plus éthique, expérimentent un système de « checks-and-balances ». Dans cette approche, un modèle génère des données tandis qu’un second vérifie l’exactitude de ces données.
Parmi ces entreprises, Anthropic a été particulièrement transparente quant à son utilisation des données synthétiques. Elle a reconnu avoir recours à une « constitution », c’est-à-dire une liste de lignes directrices, pour former son système à deux modèles. Claude 3, la dernière version de son modèle de langage, a même été alimenté par des « données générées en interne ».
Malgré cette idée prometteuse, les recherches sur les données synthétiques présentent encore de nombreux défis. Étant donné que les chercheurs ne comprennent pas encore parfaitement le fonctionnement de l’IA, il est difficile d’envisager une avancée rapide dans la génération de données synthétiques viables.
FAQ
Qu’est-ce que les données synthétiques ?
Les données synthétiques sont des données générées artificiellement par des algorithmes, souvent utilisées pour entraîner des modèles d’IA. Elles peuvent potentiellement résoudre les problèmes de pénurie de données.
Pourquoi y a-t-il une pénurie de données pour l’IA ?
Cette pénurie peut découler de divers facteurs, y compris la difficulté d’accéder à des ensembles de données de qualité, les problèmes de droits d’auteur, et les limites dans la collecte de données réelles.
Qu’est-ce que l’autophagie des modèles ?
C’est un phénomène dans lequel un modèle d’IA devient déformé et génère des résultats aberrants suite à une répétition excessive de l’apprentissage à partir de ses propres outputs.
Comment les entreprises d’IA vérifient-elles la qualité de leurs données ?
Certaines entreprises mettent en œuvre des systèmes de vérification à deux niveaux, où un modèle produit les données et un autre modèle évalue leur précision.
Quels sont les enjeux éthiques associés aux données synthétiques ?
Les enjeux éthiques incluent la possible biais dans les données générées, le risque de violations de droits d’auteur, et les préoccupations concernant l’impact sur la création d’une IA équitable et transparente.
