Une Évaluation Alarmante
Peu après son lancement, les développeurs ont remarqué une fonctionnalité frappante de ChatGPT d’OpenAI : sa capacité à générer rapidement du code en réponse à des sollicitations simples. Cependant, la question se pose : les ingénieurs logiciels devraient-ils vraiment se fier à ses résultats ?
Une étude récente, encore en attente de validation par les pairs, menée par des chercheurs de l’Université de Purdue, révèle que cet outil d’IA extrêmement populaire s’est trompé dans plus de la moitié des 517 requêtes liées à l’ingénierie logicielle issues de la plateforme Stack Overflow. Cette réalité devrait inciter les programmeurs à réfléchir à deux fois avant d’intégrer les réponses de ChatGPT dans des projets cruciaux.
Un Mensonge Convaincant
L’étude ne s’arrête pas là. Les chercheurs ont demandé à 12 participants, avec divers niveaux de compétence en programmation, d’évaluer les réponses de ChatGPT. Globalement, ces participants ont tendance à juger les réponses de Stack Overflow supérieures, notamment en termes de précision, d’exhaustivité et d’utilité. Néanmoins, ils n’ont pas excellemment identifié les erreurs dans les réponses de ChatGPT, ne les décelant pas dans 39,34 % des cas.
En d’autres termes, ChatGPT s’avère être un menteur très convaincant, une réalité à laquelle nous sommes de plus en plus confrontés. Les auteurs de l’étude déclarent que les utilisateurs ont tendance à ignorer les informations incorrectes dans les réponses de ChatGPT, en partie grâce à la clarté et à l’articulation des réponses fournies.
La Nécessité de Raisonnement
Devons-nous véritablement nous inquiéter ? Il existe plusieurs manières d’obtenir une réponse jugée “correcte” en programmation. De nombreux développeurs affirment également vérifier les résultats de ChatGPT, ce qui indique une certaine compréhension des limites de cet outil. Cependant, il reste à savoir si cette vigilance se poursuivra dans le temps.
Les chercheurs soulignent qu’il reste encore beaucoup à faire pour corriger les défauts de ChatGPT. Bien que de nombreux travaux soient concentrés sur l’élimination des hallucinations des modèles de langage, ceux-ci ne traitent que des erreurs factuelles. Puisque les erreurs conceptuelles proviennent d’un manque de compréhension et de raisonnement, les solutions actuelles aux hallucinations ne suffisent pas à réduire ces erreurs conceptuelles.
En conclusion, les chercheurs estiment qu’il est impératif de “former ChatGPT à raisonner”, un défi considérable pour la génération actuelle d’intelligences artificielles.
FAQ
Qu’est-ce que ChatGPT ?
ChatGPT est un modèle de traitement du langage naturel développé par OpenAI, qui permet de générer du texte et de répondre à des questions en se basant sur un vaste corpus d’informations.
Pourquoi les résultats de ChatGPT ne peuvent-ils pas toujours être considérés comme fiables ?
Bien que ChatGPT puisse produire des résultats cohérents et bien formulés, il peut également générer des informations incorrectes, en raison de limitations dans sa compréhension et sa capacité à raisonner.
Comment les développeurs peuvent-ils s’assurer de la précision des réponses générées par ChatGPT ?
Il est recommandé aux développeurs de toujours vérifier et valider les réponses de ChatGPT en les confrontant à d’autres sources fiables ou en les testant directement dans un environnement de développement.
ChatGPT peut-il évoluer pour devenir plus précis ?
Oui, avec des mises à jour continues et des recherches sur l’IA et les modèles de langage, il est possible que ChatGPT devienne plus adaptatif et abordable pour des problématiques complexes.
Quel rôle la communauté scientifique joue-t-elle dans l’amélioration de ChatGPT ?
La communauté scientifique examine constamment les performances des modèles d’IA, proposant des études et des solutions pour atténuer les problèmes identifiés, notamment en terme de précision et de raisonnement.
