Intelligence Artificielle

Sociétés d’IA à court de données d’entraînement : épuisement des ressources Internet

Sociétés d'IA à court de données d'entraînement : épuisement des ressources Internet

Pénurie de Données

À mesure que les entreprises d’intelligence artificielle conçoivent des modèles de plus en plus puissants, elles sont confrontées à un défi majeur : bientôt, l’internet pourrait ne plus suffire à leur fournir toutes les données nécessaires. Actuellement, la quête de données d’entraînement devient un enjeu crucial, certains experts soulignant que les ressources en ligne deviennent trop restreintes pour les besoins croissants de ces technologies.

Des informations rapportées par le Wall Street Journal indiquent que certaines entreprises se tournent vers des sources alternatives pour l’entraînement de leurs IA. Parmi ces sources, on trouve des transcriptions de vidéos disponibles au public ainsi que des données “synthétiques” générées par des IA elles-mêmes.

Il convient de noter que certaines entreprises, comme Dataology, fondée par un ancien chercheur de Meta et de Google DeepMind, cherchent des solutions pour former des modèles plus performants en utilisant moins de données et de ressources. Cependant, la plupart des grandes sociétés explorent des méthodes novatrices et parfois controversées pour alimenter leurs systèmes.

Par exemple, OpenAI a envisagé, selon les sources du Wall Street Journal, d’entraîner son modèle GPT-5 en utilisant des transcriptions provenant de vidéos publiques sur YouTube. Cela soulève des questions, notamment lorsque la directrice technique de l’entreprise, Mira Murati, peine à clarifier si son générateur de vidéos, nommé Sora, a été formé en utilisant des données de cette plateforme.

Restez Calme

La discussion autour des données synthétiques a pris de l’ampleur récemment, particulièrement après qu’une étude a indiqué que l’entraînement d’un modèle d’IA avec des données générées par IA pourrait mener à une forme de “consanguinité numérique“, ce qui pourrait provoquer un « effondrement de modèle » similaire à ce que l’on appelle l’« IA de Habsbourg ».

Des entreprises comme OpenAI et Anthropic, cette dernière créée par des ex-employés d’OpenAI pour développer une IA plus éthique, s’efforcent de contrer cette tendance en produisant des données synthétiques prétendument de meilleure qualité. Cependant, le secret entourant la nature exacte de ces données reste obscur pour le public.

D’ailleurs, lors de l’annonce de leur modèle Claude 3, Anthropic a reconnu avoir utilisé des “données que nous générons en interne”. Dans une interview avec le Wall Street Journal, leur scientifique en chef, Jared Kaplan, a affirmé qu’il existait des applications valables pour les données synthétiques.

Bien que les craintes sur une pénurie de données pour l’IA préoccupent les chercheurs depuis un certain temps, Pablo Villalobos, chercheur chez Epoch, a souligné qu’il n’y a pas de raison de s’alarmer. Son entreprise estime que nous pourrions nous retrouver à court de données d’entraînement exploitables dans les années à venir, mais il reste confiant quant aux futures avancées technologiques.

Villalobos a noté : « L’incertitude majeure réside dans les percées que nous pourrions observer. »

Il est également possible que cette préoccupation soit en fin de compte exagérée. Les entreprises d’IA pourraient tout simplement cesser de chercher à créer des modèles toujours plus grands, étant donné qu’elles consomment aussi beaucoup d’électricité et nécessitent des puces informatiques coûteuses, dont la production implique l’extraction de minéraux rares.

En Savoir Plus sur l’Entraînement de l’IA

Microsoft et OpenAI travailleraient sur un supercalculateur secret d’une valeur de 100 milliards de dollars pour entraîner des IA avancées.

FAQ

Quel est le principal défi pour les entreprises d’IA à l’heure actuelle ?

Le principal défi réside dans la pénurie de données adaptées pour l’entraînement des modèles, alors que les besoins continuent d’augmenter.

Que sont les données synthétiques ?

Les données synthétiques sont des données générées par des algorithmes d’IA, qui visent à suppléer les données réelles afin de former les modèles d’intelligence artificielle.

Quels risques existent avec l’utilisation de données générées par IA ?

Le principal risque est que l’entraînement basé sur des données synthétiques pourrait mener à des problèmes de qualité, voire à des échecs de modèle à long terme, comme l’a signalé une récente étude.

Comment les entreprises tentent-elles de surmonter la pénurie de données ?

Certaines entreprises explorent des sources alternatives, comme les transcriptions de vidéos publiques, ou tentent de produire des données synthétiques de meilleure qualité.

Existe-t-il une solution permanente à cette crise de données ?

Le débat est en cours : certaines propositions incluent le fait que les entreprises pourraient décider de réduire leurs ambitions de taille de modèles en faveur de l’efficacité énergétique et de l’utilisation optimisée des données.

Quitter la version mobile