En savoir plus
Évaluation d’un chatbot santé AI
Une étude récente remet en question la fiabilité de ChatGPT Health, un chatbot d’OpenAI conçu pour répondre aux questions médicales. Les résultats montrent que plus de la moitié des urgences médicales graves ont été mal évaluées par l’outil.
Publiée dans la revue Nature Medicine, cette recherche révèle que le système a échoué à identifier 51,6 % des cas d’urgence, souvent conseillant aux patients d’attendre 24 à 48 heures avant de consulter un médecin, au lieu de se rendre directement aux urgences.
Tester la fiabilité de ChatGPT
Pour analyser ChatGPT Health, les chercheurs ont élaboré 60 scénarios médicaux rédigés par des cliniciens dans divers domaines médicaux allant des plaintes courantes aux situations potentiellement mortelles. Chaque scénario a été testé sous 16 variantes différentes concernant des détails comme les caractéristiques du patient et le contexte, ce qui a généré un total de 960 réponses du chatbot. Par la suite, les recommandations de l’outil AI ont été comparées aux évaluations faites par des médecins suivant des directives cliniques.
Dans ce cadre, le triatage désigne l’évaluation du degré d’urgence d’une situation, allant de la simple gestion des symptômes à domicile à la nécessité d’une intervention immédiate.
Des symptômes critiques ignorés
L’étude a révélé que plusieurs conditions médicalement graves ont été perçues comme moins urgentes qu’elles ne devraient l’être. Parmi celles-ci, on retrouve l’acido-cétose diabétique et l’insuffisance respiratoire imminente, toutes deux nécessitant une prise en charge médicale immédiate. À en croire les chercheurs, des délais dans la prise en charge pourraient engendrer des conséquences graves si les patients se fient aux conseils du chatbot sans rechercher des soins urgents.
Cependant, le système a montré de meilleurs résultats lors de l’identification de symptômes évidents. Les urgences classiques telles que l’AVC et les réactions allergiques sévères étaient généralement reconnues comme nécessitant un traitement immédiat.
Incohérences dans le triage
En plus des cas d’urgences ratées, les chercheurs ont observé d’autres signes d’une performance inégale durant les tests. Dans certains cas non urgents, le chatbot recommandait des soins médicaux superflus, suggérant des consultations pour des symptômes qui auraient pu être gérés à domicile.
Il a également été démontré que le contexte influençait les recommandations du chatbot. Lorsque des amis ou des membres de la famille minimisaient les symptômes d’un patient dans un scénario, ce que les chercheurs ont qualifié de biais d’ancrage, le chatbot était nettement plus enclin à recommander des soins moins urgents pour des cas limites.
Des incohérences ont également été notées concernant les réponses liées au risque suicidaire. Les messages de soutien en cas de crise apparaissaient parfois lorsque des utilisateurs exprimaient des pensées suicidaires sans préciser de méthode, mais étaient absents lorsque des plans plus concrets étaient mentionnés.
Réaction d’OpenAI
OpenAI a répondu à ces résultats en affirmant que l’étude ne reflète pas la réalité opérationnelle de ChatGPT Health. Un porte-parole de la société a mentionné sur CNBC que l’outil est conçu pour des conversations continues, permettant aux utilisateurs de poser des questions supplémentaires et d’offrir davantage de contexte, plutôt que de se fier à une seule question et réponse.
La société a également précisé que l’outil AI est encore limité en disponibilité pendant qu’elle continue à améliorer sa sécurité et fiabilité avant un déploiement à plus grande échelle.
Appels à la prudence concernant les conseils médicaux AI
Le Dr Ashwin Ramaswamy, qui a dirigé l’étude, a mis en garde contre l’utilisation de tels outils sans tests supplémentaires. Il a souligné que ces chatbots ne peuvent pas être considérés comme de sources sûres de conseils médicaux à l’heure actuelle.
Les experts insistent également sur la nécessité d’une évaluation rigoureuse avant de déployer largement ces technologies. Le Dr John Mafi, professeur associé à UCLA Health, a souligné que les technologies susceptibles d’influencer des décisions de santé devraient passer par des essais contrôlés pour assurer que leurs avantages surpassent les risques potentiels.
Le Dr Ethan Goh, directeur exécutif du réseau de recherche AI ARISE, a ajouté que même si les chatbots peuvent être utiles, ils ne doivent pas être vus comme des substituts au jugement des médecins.
MyFitnessPal a acquis Cal AI, une application de nutrition développée par des adolescents, qui a généré 30 millions de dollars de revenus annuels en moins de deux ans.
FAQ
Qu’est-ce que ChatGPT Health ?
ChatGPT Health est un outil d’intelligence artificielle développé par OpenAI destiné à répondre aux questions médicales des consommateurs.
Pourquoi est-il important de tester ces chatbots ?
Tester ces outils est essentiel pour garantir qu’ils fournissent des conseils médicaux sûrs et précis avant leur utilisation généralisée.
Quels types de scénarios ont été testés dans l’étude ?
Les chercheurs ont concocté des scénarios médicaux variés allant de symptômes bénins à des urgences médicales graves, afin d’évaluer la performance du chatbot.
Quelle est la position d’OpenAI sur les résultats de l’étude ?
OpenAI a indiqué que l’étude ne représente pas fidèlement la manière dont ChatGPT Health est conçu pour fonctionner dans un contexte d’utilisation réelle.
Quelles précautions sont recommandées en matière de conseils médicaux AI ?
Les experts conseillent de ne pas s’appuyer uniquement sur ces outils pour prendre des décisions de santé sérieuses, en attendant des évaluations approfondies de leur fiabilité.
