Intelligence Artificielle

Les chercheurs de Facebook évaluent l’intelligence de l’IA et constatent qu’elle laisse à désirer.

Les chercheurs de Facebook évaluent l'intelligence de l'IA et constatent qu'elle laisse à désirer.

Évaluation des AI : Un Bilan Décevant

Une équipe de chercheurs de Meta, la société mère de Facebook, a conçu un nouvel outil pour évaluer les performances des assistants intelligents, comme le modèle de langage GPT-4 d’OpenAI. Cet outil consiste en un examen intitulé GAIA, comprenant 466 questions qui sont simples pour un humain, mais difficiles à traiter pour la majorité des systèmes d’IA avancés, selon un article qui n’a pas encore été évalué par des pairs.

Les résultats montrent clairement une écart de performance frappant : les participants humains ont réussi à répondre correctement à 92 % des questions, tandis que GPT-4, même renforcé par quelques plugins sélectionnés manuellement, n’a obtenu qu’un score de 15 %. Le récent modèle GPT-4 Turbo a même fait pire, avec moins de 10 %, d’après le classement GAIA publié.

Il demeure toutefois flou comment d’autres modèles, tels que Llama 2 de Meta ou Bard de Google, se sont comportés dans cette évaluation. Quoi qu’il en soit, cette recherche souligne que nous n’avons probablement pas encore atteint l’état d’intelligence artificielle générale (AGI), où les algorithmes auraient la capacité de surpasser les humains dans des tâches intellectuelles.

Un Écart de Performance Alarmant

Cette conclusion remet en cause les affirmations faites par certains acteurs remarquables de l’industrie de l’IA. Les chercheurs notent que cette disparité de performance contraste fortement avec les tendances récentes où les modèles de langage (LLM) réalisent des performances supérieures à celles des humains dans des domaines spécialisés tels que le droit ou la chimie.

A lire :  Le Système Innovant de Détection d'Âge de ChatGPT Intègre la Vérification par Selfie

Par exemple, en janvier, Anthropic, un concurrent d’OpenAI, a annoncé que son AI nommé Claude avait obtenu une « légère réussite » lors d’un examen de droit et d’économie à l’Université George Mason.

Dans sa documentation sur GPT-4, OpenAI mentionne que son modèle possède une performance comparable à celle des humains sur divers benchmarks professionnels et académiques, en revendiquant avoir passé un examen du barreau avec un score parmi les dix pourcents les plus élevés des candidats. Pourtant, comment évaluer réellement l’intelligence de ces systèmes reste un débat délicat. Des modèles comme GPT-4 présentent toujours de nombreuses lacunes et ne parviennent pas à distinguer le vrai du faux de manière fiable.

Autrement dit, comment un algorithme pourrait-il réussir cet examen s’il n’est même pas capable de déterminer si l’Australie existe ?

Une Compréhension Limitée

Yann LeCun, un critique éminent de l’alarmisme en matière d’IA, a maintes fois minimisé les commentaires sur les dangers d’une AGI incontrôlable. Il a tweeté récemment que les LLM possèdent manifestement une forme de compréhension de leurs lectures et productions, mais que cette compréhension est très limitée et superficielle. Sinon, ils ne feraient pas autant d’erreurs saugrenues et ne débattraient pas de manière illogique.

Cela dit, les choses pourraient évoluer. Selon des rumeurs, OpenAI serait en train de développer un modèle de nouvelle génération, désigné Q*, qui pourrait introduire des capacités de raisonnement déductif et de planification. Reste à savoir s’il saura obtenir un meilleur score dans le rigoureux test GAIA de Meta.

FAQ

Qu’est-ce que le modèle GAIA ?

Le modèle GAIA est un examen conçu pour évaluer les capacités des assistants d’IA en posant des questions simples pour les humains mais complexes pour les intelligences artificielles avancées.

A lire :  Les joueurs exultent : Microsoft retire complètement l'IA Copilot de la Xbox.

Quel score a obtenu GPT-4 dans l’examen GAIA ?

GPT-4 a obtenu un faible score de 15 % dans l’examen GAIA, tandis que le modèle GPT-4 Turbo n’a enregistré que moins de 10 %.

Pourquoi certains affirment-ils que les LLM dépassent déjà les humains ?

Des entreprises comme Anthropic ont rapporté que leur modèle d’IA, Claude, a réussi à passer des examens de droit et d’économie, suggérant une certaine capacité des LLM à rivaliser avec les humains dans des domaines spécifiques.

Quelles sont les critiques concernant l’intelligence des modèles d’IA existants ?

Les critiques soulignent que les modèles comme GPT-4 ont des limites significatives et ne peuvent pas toujours discerner la vérité, soulevant des questions sur leur prétendue intelligence.

Que pourrait apporter le modèle Q* ?

Le modèle Q* pourrait introduire des capacités de raisonnement et de planification qui surpasseraient celles des actuels modèles d’IA, mais son efficacité reste à prouver.