Une avancée marquante pour l’intelligence artificielle
Un modèle de langage parmi les plus avancés de l’industrie a réussi un test de Turing, une évaluation historique utilisée pour mesurer l’intelligence semblable à celle des humains. Ce test est souvent considéré comme un indicateur crucial des capacités cognitives des machines.
Les résultats d’une étude récente
Dans une étude récemment publiée en préimpression et en attente de revue, des chercheurs ont mené un test de Turing modifié. Dans cette version à trois participants, des individus ont discuté simultanément avec un humain et une intelligence artificielle (IA), puis ont dû déterminer qui était qui. Le modèle GPT-4.5 d’OpenAI a été reconnu comme un humain dans 73 % des cas lorsqu’il a été programmé pour adopter une certaine personnalité. Ce résultat, largement supérieur à un simple tirage au sort de 50 %, indique un succès retentissant dans ce test reconnu.
Évaluation d’autres modèles d’IA
Les chercheurs ont également évalué d’autres modèles, comme le LLama 3.1-405B de Meta, ainsi que le modèle GPT-4o d’OpenAI et un ancien chatbot, ELIZA, conçu il y a environ quatre-vingts ans. Selon Cameron Jones, l’auteur principal de l’étude et chercheur au laboratoire de Langue et Cognition de l’UC San Diego, les participants n’ont pas été meilleurs que le hasard pour distinguer les humains du modèle. En fait, l’IA 4.5 a été identifiée comme humaine plus souvent que des humains réels.
Une méthode de test mise en lumière
Le test de Turing, nommé d’après le mathématicien et informaticien Alan Turing, a été proposé en 1950 comme méthode pour évaluer l’intelligence des machines. Il implique que l’IA converse avec un interrogateur humain, en parallèle avec un autre humain, sans que ce dernier soit visible. Si l’interrogateur ne parvient pas à distinguer la machine de l’être humain, cela suggère que la machine pourrait penser de manière humaine.
Les conséquences des instructions données à l’IA
Dans cette étude, les instructions données aux modèles avaient un impact considérable. Un prompt sans persona a conduit GPT-4.5 à un taux de succès de seulement 36 %, bien en dessous des 73 % réalisés avec une personnalisation. Ainsi, le modèle GPT-4o, qui alimente la version actuelle de ChatGPT et n’a reçu que des instructions « sans persona », a atteint un décevant 21 %. Fait intriguant, le légendaire ELIZA a légèrement surpassé GPT-4o avec un taux de réussite de 23 %.
Un débat en cours sur l’intelligence des IA
Alors que les résultats de l’étude sont fascinants, il est important de noter que le test de Turing, bien qu’il soit respecté dans les cercles de l’IA et de la philosophie, ne prouve pas de manière définitive qu’une IA pense comme les humains. François Chollet, ingénieur logiciel chez Google, a exprimé que ce test était davantage une expérience de pensée qu’un véritable test pratique.
Les modèles de langage (LLMs) sont de véritables maîtres de la conversation, ayant été formés sur une quantité incroyable de textes produits par des humains. Même lorsqu’ils sont confrontés à des questions qu’ils ne comprennent pas, ils parviennent à fournir des réponses cohérentes. Cela soulève la question de savoir si évaluer leurs capacités par le biais d’un « jeu d’imitation » est encore pertinent.
Réflexions sur l’avenir
Jones souligne que la recherche ne permet pas de conclure facilement sur l’intelligence des LLMs. Il pense que la question mérite d’être examinée dans le cadre d’autres preuves concernant les types d’intelligence que ces modèles affichent. De plus, il avertit des implications potentielles : ces IA pourraient remplacer des interactions humaines courtes sans que les gens se rendent compte de la substitution. Cela pourrait entraîner une automatisation de certains emplois, renforçant les tactiques d’ingénierie sociale, et engendrer des perturbations sociétales.
Jones insiste sur le fait que le test de Turing reflète non seulement les capacités des machines, mais aussi l’évolution des perceptions humaines de la technologie. Les résultats ne sont pas figés : à mesure que le public interagit davantage avec des IA, il pourrait devenir plus habile à les identifier.
FAQ
Quelle est la signification du test de Turing aujourd’hui ?
Le test de Turing mesure la capacité d’une machine à reproduire un comportement humain de manière convaincante dans des conversations textuelles.
Quels modèles d’IA ont été testés et comment se sont-ils comportés ?
Les modèles testés comprennent GPT-4.5, Llama 3.1-405B, et GPT-4o. GPT-4.5 a eu le meilleur taux de reconnaissance, atteignant 73 % dans des conditions adaptées.
Quelle est l’importance de la personnalisation dans les résultats du test ?
La personnalisation, ou persona, a notablement amélioré les performances des modèles, indiquant que les instructions données influencent fortement la capacité de l’IA à représenter l’humain dans une conversation.
Les modèles de langage peuvent-ils vraiment penser comme des humains ?
Actuellement, bien que les LLMs imitent le raisonnement humain avec efficacité, cela ne prouve pas qu’ils possèdent une véritable conscience ou qu’ils pensent comme nous.
Quelles sont les implications futures de ces résultats ?
Les résultats pourraient mener à une automatisation accrue des emplois, à des interactions plus fréquentes entre humains et IA, et à des défis sur le plan éthique et sociétal concernant l’utilisation de ces technologies.
