Santé

Stupeur chez les médecins : l’IA médicale de Google invente un organe inexistant chez l’humain

Stupeur chez les médecins : l'IA médicale de Google invente un organe inexistant chez l'humain

Les professionnels de santé expriment une inquiétude croissante face à l’usage généralisé d’outils d’IA générative. Les systèmes promettent vitesse et assistance, mais leurs hallucinations — ces affirmations fausses dites avec aplomb — posent un problème concret dès qu’on touche au diagnostic ou à la prise en charge des patients.

Pourquoi l’enthousiasme se heurte à la réalité

  • Dans la recherche d’informations en ligne, une erreur d’IA crée surtout de la confusion et rallonge la vérification.
  • En médecine, le même type d’erreur peut induire de mauvais choix cliniques, perturber des équipes et, dans le pire des cas, mettre des vies en danger.
  • Malgré le discours marketing autour des modèles de “raisonnement”, l’IA générative reste entraînée sur de grands corpus web et peut produire des contenus inventés avec une grande conviction.

L’erreur emblématique qui a échappé au radar

  • En mai 2024, une publication présentant le modèle de santé de Google, Med‑Gemini, montrait l’analyse de scanners cérébraux. Le système y signalait un “old left basilar ganglia infarct”.
  • Problème: les “basilar ganglia” n’existent pas. L’IA semble avoir mélangé les basal ganglia (un ensemble de structures impliquées dans le mouvement et les habitudes) avec l’artère basilaire (un gros vaisseau à la base du tronc cérébral).
  • Un neurologue l’a signalé à la presse spécialisée, notant que Google a corrigé son billet de blog, mais que l’article scientifique n’a pas été rectifié pendant un long moment.
  • Ce raté n’est pas qu’une coquille. Il montre comment un enchaînement plausible peut masquer une contrevérité anatomique et passer entre les mailles des relectures.
A lire :  Un homme pirate son bras prothétique pour maîtriser des instruments de musique.

Ce que révèlent ces dérapages sur les modèles actuels

  • Les grands modèles de langage excellent pour générer des réponses fluides, mais évitent rarement de dire “je ne sais pas”.
  • Des variantes plus récentes, comme MedGemma, ont montré des réponses variables selon la formulation des questions, avec des erreurs à la clé.
  • En contexte clinique, ces oscillations nuisent à la fiabilité perçue: un même dossier ne devrait pas aboutir à des conclusions différentes au gré des tournures de phrases.

À l’hôpital, la vérification a un coût… et des limites

  • On pourrait compter sur les équipes pour relire chaque sortie d’IA. En pratique, les charges de travail et la complexité des cas rendent la surveillance continue difficile.
  • Plus la relecture humaine s’intensifie, plus on perd le gain d’efficacité censé justifier l’IA.
  • L’exemple des “basal/basilar” rappelle qu’“deux lettres” peuvent suffire à faire basculer l’interprétation d’une imagerie ou d’un compte‑rendu.

La réponse de Google et l’accélération des usages

  • Google met en avant un “potentiel substantiel” pour l’IA médicale: dépistage sur radiographies, CT‑scans, et autres.
  • Après signalement, l’entreprise a expliqué que “basilar” serait une mauvaise transcription apprise dans les données d’entraînement, tout en assurant que le sens global du rapport ne changeait pas. Le billet de blog a été modifié, mais la version papier a tardé à l’être.
  • En parallèle, la firme a élargi l’emploi de l’IA: les AI Overviews de la recherche doivent désormais fournir des conseils santé, et un “co‑scientifique” dopé à l’IA est proposé pour la découverte de médicaments. Autant d’usages prometteurs… si et seulement si les sorties sont observées et vérifiées.
A lire :  Mauvaises Nouvelles, Télétravailleurs : Les Bureaux Debout Pourraient Être Néfaste pour Votre Santé.

Quel seuil d’erreur accepter ?

  • Des responsables médicaux insistent: l’IA en santé doit viser un taux d’erreur bien plus bas que celui d’un humain, pas simplement l’égaliser.
  • Dans des domaines à forts enjeux, “presque juste” n’est pas acceptable. Le seuil d’acceptabilité doit être défini, mesuré et contrôlé avant tout déploiement réel.

En résumé

  • L’IA médicale avance vite, mais les hallucinations et coquilles peuvent se traduire par des conclusions fausses, parfois très crédibles.
  • Sans garde‑fous, traçabilité et relecture systématique, ces systèmes risquent de fragiliser la sécurité des patients autant qu’ils promettent de la renforcer.

FAQ

Quelles pratiques réduisent concrètement les hallucinations en santé ?

  • Utiliser des modèles spécialisés entraînés sur des données cliniques vérifiées.
  • Contraindre l’IA à citer ses sources et à signaler son incertitude.
  • Mettre en place des prompts structurés et des check‑lists d’auto‑vérification.
  • Ajouter des garde‑fous: règles médicales, ontologies (SNOMED, ICD), et contrôles par moteurs symboliques.

Quels cadres réglementaires s’appliquent aujourd’hui ?

  • Aux États‑Unis, la FDA régule les logiciels en tant que dispositif médical (SaMD) et publie des lignes de Bonnes pratiques de ML.
  • En Europe, le Règlement DM (MDR) et l’AI Act introduisent des exigences de sécurité, de gestion du risque et de surveillance post‑commercialisation.

Comment un hôpital peut-il déployer l’IA sans risque majeur ?

  • Démarrer par des cas d’usage à faible risque (résumés, tri de documents).
  • Exiger des essais prospectifs et une validation locale sur ses propres données.
  • Mettre en place un double contrôle humain et un journal d’audit des décisions.
  • Prévoir un plan de repli si la performance se dégrade (monitoring de dérive).
A lire :  Des chercheurs tirent la sonnette d'alarme sur des virus extraterrestres venus d'autres planètes.

Peut-on “apprendre” à l’IA à dire “je ne sais pas” ?

  • Oui. On peut ajuster les seuils de confiance, entraîner des classifieurs d’abstention, et imposer des politiques de non‑réponse quand l’incertitude est élevée.

Quels indicateurs suivre après la mise en service ?

  • Taux d’erreurs cliniquement pertinentes, temps de relecture, abstentions justifiées, cohérence inter‑versions, et retours des utilisateurs (incidents, faux positifs/faux négatifs).