En savoir plus
Quand on télécharge une nouvelle application, il arrive souvent qu’on l’essaie rapidement sans avoir besoin d’instructions ni de tutoriel. Cependant, il semble que l’intelligence artificielle (IA) n’ait pas cette capacité.
Une nouvelle évaluation pour l’IA
La Fondation ARC Prize a récemment lancé l’ARC-AGI-3, un test destiné à évaluer la capacité de l’IA à apprendre de nouvelles compétences de manière autonome, à la façon dont les humains le font. Plutôt que de répondre à des questions triviales ou de coder, les agents d’IA doivent explorer des environnements interactifs inconnus et résoudre des énigmes inédites.
L’AGI, ou intelligence générale artificielle, est l’objectif que toutes les entreprises majeures d’IA poursuivent activement : créer une IA qui peut accomplir n’importe quelle tâche sans formation spécifique. OpenAI a même renommé sa division produit pour l’appeler « AGI Deployment », tandis que Jensen Huang a déclaré que l’AGI était « déjà parmi nous ». Le prochain modèle d’OpenAI, surnommé Spud, pourrait être le premier à être revendiqué comme AGI. L’ARC-AGI-3 vise à évaluer ces revendications de manière concrète.
Ce qu’il s’est passé après le lancement
Après le lancement, les résultats ont été révélateurs :
- Chaque modèle de pointe a réussi à atteindre moins de 1% de succès : Gemini 3.1 Pro à 0,37%, GPT-5.4 à 0,26%, Claude Opus 4.6 à 0,25% et Grok 4.2 à 0%.
- En revanche, 100% des testeurs humains ont réussi à résoudre tous les environnements du premier coup, sans aucune instruction ni formation préalable.
- Le test évalue 135 environnements nouveaux, représentant environ 1 000 niveaux, en mesurant l’efficacité avec laquelle l’IA les résout par rapport aux humains.
- Un concours de 2 millions de dollars est en cours sur Kaggle, où le public peut également participer à des jeux liés à ce test.
Pourquoi cela est important
Cependant, tout le monde ne partage pas l’avis selon lequel le test est équitable. La méthode de notation impose une pénalité d’efficacité au carré, ce qui signifie que si un humain prend 10 étapes et que l’IA en prend 100, l’IA obtient seulement 1%. De plus, les humains reçoivent des points supplémentaires s’ils sont plus efficaces que les IA. Les modèles de réflexion prolongée ont été exclus de ce test, ce qui a suscité des critiques. L’un des critiques, @scaling01, a soutenu que la méthodologie était conçue pour aboutir à des scores bas.
Le fondateur d’ARC, François Chollet, a rétorqué que les modèles d’aujourd’hui ne brillent que grâce à des structures élaborées construites par les humains, comme des instructions spécifiques ou des techniques de réflexion. Si une IA est réellement AGI, elle ne devrait pas dépendre de l’intervention humaine.
Ce débat soulève une question intéressante : nous ne remettons plus en question si l’IA est intelligente, mais comment mesurer cette intelligence.
Notre point de vue
La question centrale n’est pas de savoir si les modèles actuels réussiront—ils le feront, éventuellement. Ce qui est plus crucial, c’est de savoir si l’apprentissage sur d’énormes ensembles de données avec l’architecture actuelle peut vraiment conduire à une adaptabilité authentique ou s’il faut changer complètement d’approche. Le professeur Saining Xie de NYU a avancé que les modèles de langage actuels pourraient être « anti-Bitter Lesson », car ils se basent entièrement sur des données générées par des humains plutôt que d’apprendre d’expériences brutes.
Les modèles qui réussiront à percer l’ARC-AGI-3 ne se contenteront pas d’être plus intelligents ; ils représenteront un nouveau type d’intelligence, essentiel pour quiconque se soucie vraiment de l’AGI. Pour ceux qui n’accordent pas d’importance à cela, les modèles actuels peuvent sembler appropriés, mais ils nécessiteront toujours une attention humaine considérable, avec des coûts de formation pouvant atteindre des milliards. Peut-être est-ce pour le mieux.
FAQ
Qu’est-ce que l’AGI ?
L’AGI, ou intelligence générale artificielle, désigne une forme d’intelligence artificielle capable de réaliser n’importe quelle tâche intellectuelle humaine sans formation spécifique.
Pourquoi les modèles IA échouent-ils dans l’ARC-AGI-3 ?
Les modèles actuels échouent en raison de leur incapacité à s’adapter et à apprendre de nouveaux environnements sans assistance humaine. Leur structure et leur formation les rendent dépendants de scénarios prévisibles.
Quel est l’objectif de l’ARC Prize Foundation ?
L’objectif de cette fondation est de promouvoir la recherche et le développement d’une intelligence artificielle véritablement autonome et adaptative.
Comment puis-je participer au concours Kaggle ?
Vous pouvez vous inscrire sur la plateforme Kaggle pour tenter votre chance dans le concours et jouer aux jeux publics associés à l’ARC-AGI-3.
Les humains sont-ils toujours meilleurs que l’IA dans ces tests ?
Actuellement, oui. Les humains ont démontré une capacité d’adaptation et de résolution de problèmes que les modèles IA n’ont pas encore réussi à égaler dans le cadre de l’ARC-AGI-3.
