La Déception d’Apple en matière d’IA
Un essai mitigé
Récemment, Apple a lancé un nouveau programme d’intelligence artificielle nommé Apple Intelligence, mais les résultats ont été loin de répondre aux attentes. Les résumés d’actualités proposés par cette IA ont reçu de vives critiques pour leurs titres mal formulés et la diffusion d’informations erronées. Face à cette situation, Apple a pris la décision de suspendre le programme jusqu’à ce que les problèmes soient résolus.
Un problème prévisible
Ces difficultés n’auraient pas dû surprendre les observateurs. Les “hallucinations” d’IA sont un problème courant rencontré par tous les grands modèles de langage (LLM), et jusqu’à présent, personne n’a trouvé de solution définitive. L’initiative d’Apple semble particulièrement imprudente, étant donné que ses ingénieurs avaient déjà alerté sur les lacunes de cette technologie.
Des avertissements scientifiques
Un avertissement a été formulé dans une étude parue en octobre dernier, qui n’a pas encore été soumise à un examen par les pairs. Les chercheurs y ont testé la capacité de raisonnement mathématique de certains des modèles de langage les plus sophistiqués de l’industrie, renforçant ainsi l’idée que ces modèles ne raisonnent pas réellement. Ils se contentent d’imiter les étapes de raisonnement observées dans leurs données d’entraînement.
Les limites des modèles d’IA
Pour évaluer la performance des modèles d’IA, les chercheurs leur ont posé des questions mathématiques tirées du réputé dataset GSM8K. Voici un exemple de problème : « James achète 5 paquets de viande de 4 livres chacun. Le prix de la viande est de 5,50 dollars par livre. Combien a-t-il payé ? » Ce sont des questions que même un élève de collège pourrait résoudre sans trop de difficulté.
Leur approche pour dévoiler les faiblesses des modèles était à la fois simple et choquante : ils modifiaient simplement les chiffres dans les questions. Cela évitait toute contamination des données, garantissant que les IA n’avaient jamais rencontré ces problèmes exacts au préalable. Cette manipulation a suffi à entraîner une légère mais significative baisse de précision dans les 20 modèles de langage testés.
Des erreurs dévastatrices
Mais lorsque les chercheurs sont allés plus loin en changeant également les noms et en ajoutant des détails non pertinents, comme le fait que certains fruits étaient « plus petits que d’habitude », la chute de performance a été qualifiée de “catastrophique” par les chercheurs, atteignant jusqu’à 65 %. La variation des performances dépendait des modèles, mais même les plus performants, comme l’o1-preview d’OpenAI, ont connu une chute de 17,5 %.
Une conclusion inquiétante
Il en ressort que les modèles d’IA présentent une faiblesse majeure : leur incapacité à discerner les informations pertinentes pour résoudre un problème. Selon les chercheurs, cela provient du fait que leur raisonnement n’est pas rigoureux et repose principalement sur la correspondance de motifs. En d’autres termes, l’IA peut donner l’impression d’être intelligente et spurger des réponses appropriées tant qu’elle peut s’appuyer sur des données existantes. Mais dès qu’elle doit générer des solutions originales, ses capacités s’effondrent.
On pourrait penser que cela soulèverait des doutes sérieux quant à l’utilisation des IA pour reformuler des titres d’actualités, mais pourtant, Apple a décidé de lancer son modèle malgré les avertissements. Cette démarche semble refléter la tendance générale de l’industrie.
FAQ
Quelles sont les principales critiques des modèles d’IA d’Apple ?
Les critiques portent sur leur manque de précision et leur tendance à diffuser de fausses informations, en plus de ne pas comprendre le sens des mots qu’ils traitent.
Comment les chercheurs évaluent-ils la capacité de raisonnement des IA ?
Ils utilisent des problèmes mathématiques standardisés où ils modifient des éléments pour tester la capacité des modèles à s’ajuster et à raisonner plutôt qu’à simplement répliquer.
Les IA peuvent-elles être améliorées pour résoudre ces problèmes ?
Il existe des efforts continus dans la recherche pour améliorer la compréhension contextuelle des modèles, bien que de nombreux défis demeurent.
Quel est l’impact des faiblesses des modèles de langage sur leur utilisation ?
Les erreurs peuvent affecter leur fiabilité dans des applications critiques, notamment dans des domaines comme le journalisme et les services clients.
Quelle est l’importance des données de formation pour les IA ?
Les données de formation déterminent la capacité des IA à répondre correctement. Des données mal adaptées ou biaisées peuvent conduire à des erreurs de jugement importantes.
