Pourquoi ChatGPT Santé se trompe une fois sur deux et ne détecte pas les urgences vitales ?

Les chercheurs tirent la sonnette d’alarme. Une étude publiée dans Nature Medicine montre que ChatGPT Santé a tendance à se tromper. L’assistant médical d’OpenAI n’envoie pas ses utilisateurs aux urgences dans la moitié des cas alors que leur vie est en jeu. On vous explique tout.

Sommaire
ChatGPT santé
© Unsplash

Depuis janvier dernier, OpenAI propose ChatGPT Santé (Health). L’outil centralise les données médicales de l’utilisateur pour un suivi personnalisé. L’IA vérifie des résultats d’analyse, suit l’évolution de certaines données comme le taux de cholestérol, prépare un rendez-vous chez un médecin ou encore modifie des habitudes de vie. Le chatbot s’occupe de tout entre sommeil, régime, entraînement.

Faut-il confier ses données médicales à ChatGPT Santé ?

Il faut dire que Sam Altman pousse depuis des mois sa vision d’un ChatGPT « super assistant » omniprésent dans nos vies. Sauf que voilà, confier sa santé à un chatbot n’est pas sans risque. Des chercheurs de l’Icahn School of Medicine at Mount Sinai ont publié la première évaluation indépendante de l’outil. L’étude est parue dans Nature Medicine et ses conclusions sont accablantes. L’IA se trompe trop souvent, même pour les cas les plus graves.

Les chercheurs ont soumis 60 scénarios cliniques réalistes à ChatGPT Santé dans 21 domaines médicaux différents. Le tout plusieurs fois et avec des profils de patients variés. Tout a été testé entre le profil ethnique, le genre, l’accès aux soins plus ou moins difficile, etc. Près de mille réponses ont été analysées au total. Rappelons que cette IA est déjà pointée du doigt pour son effet sur la santé mentale des utilisateurs, et les résultats de cette étude ne font que confirmer les craintes.

Le constat est sans appel. Dans plus de la moitié des cas urgents, l’IA a conseillé de rester à la maison ou de se contenter d’une consultation dans les 24 à 48 heures. Exit le passage aux urgences pourtant vital dans ces cas. Pour des crises d’asthme sévère ou d’acidocétose diabétique, ChatGPT a bien repéré des signes d’alerte mais a quand même suggéré de ne pas se rendre à l’hôpital.

Dans l’une des simulations, une patiente fictive présente des difficultés respiratoires graves. L’IA l’a envoyée des cas vers un simple rendez-vous médical plus tard dans 84 % des cas. Un rendez-vous où elle n’aurait pas pu se rendre car décédée si elle avait écouté ChatGPT. Seuls l’AVC et le choc anaphylactique étaient correctement repérés.

Les symptômes graves sont minimisés par ChatGPT

Et ça ne s’arrête pas là. Quand le patient minimise la gravité de ses symptômes, la probabilité que l’IA réduise le niveau d’urgence était multipliée par près de douze. Autant dire que l’outil suit l’avis du patient au lieu de le contredire, ce qui revient à valider des situations potentiellement mortelles. Les chercheurs jugent le triage effectué par le modèle « peu pertinent » et alertent sur le fait qu’il pourrait retarder des soins urgents.

Alex Ruani, chercheuse doctorale de l’University College London, déclare au Guardian : « Ce qui m’inquiète le plus, c’est le faux sentiment de sécurité que ces systèmes créent. Si on dit à une personne d’attendre 48 heures lors d’une crise d’asthme ou d’une crise diabétique, ce réconfort pourrait lui coûter la vie ».

Le problème, c’est que l’IA rassure aussi quand elle ne le faut pas. Paradoxalement, ChatGPT a trop souvent envoyé des patients aux urgences alors qu’une consultation rapide suffisait. Ce qui encombre les services hospitaliers déjà saturés. Bref, la machine se trompe dans les deux sens. 

Les chercheurs ont aussi pointé du doigt le comportement de l’IA face aux risques suicidaires. ChatGPT invite l’utilisateur à contacter le 15 ou le 3114 via une alerte en cas de danger. Sauf que dans les faits, le chatbot a tendance à afficher cette alerte quand le patient présente un risque suicidaire faible. Mais quand l’utilisateur entre dans les détails de son passage à l’acte, ChatGPT n’affiche pas l’alerte. Même lorsque la personne partage son intention d’avaler beaucoup de médicaments.

Girish N. Nadkarni déclare dans le communiqué de presse : « Ce résultat était particulièrement étonnant et préoccupant. Nous nous attendions à une certaine variabilité, mais ce que nous avons observé allait au-delà de l’incohérence. Les alertes du système étaient inversées par rapport au risque clinique, elles apparaissaient de façon plus fiable pour les scénarios à faible risque que pour les cas où une personne partageait son intention de se faire du mal ».

ChatGPT est déjà dans le viseur de la justice

En clair, plus le danger est grand, moins l’IA ne se bouge. C’est tout le contraire de ce qu’on attend d’un assistant médical. Et pour cause, OpenAI est déjà visée par des procès pour homicide après que ChatGPT a encouragé des comportements suicidaires. Rappelons qu’un adolescent de 16 ans s’est ôté la vie après des échanges glaçants avec le chatbot.

OpenAI a répondu au Guardian que l’étude ne reflète pas la vraie utilisation de ChatGPT Santé. La start-up assure que ses modèles continuaient d’être améliorés. Sauf que l’outil est déjà déployé auprès de dizaines de millions de personnes. Et il n’y a eu aucune validation externe avant sa mise sur le marché. On parle d’un produit qui n’a rien de médical malgré son nom. Sam Altman déclare depuis des mois que ChatGPT est capable de remplacer les professionnels de santé. Les faits lui donnent tort.

  • Une étude indépendante de l’Icahn School of Medicine at Mount Sinai, publiée dans Nature Medicine, a évalué ChatGPT Santé.
  • Dans plus de la moitié des cas urgents, l’IA conseille de rester à la maison ou d’attendre, au lieu d’aller aux urgences.
  • Sur le risque suicidaire, les alertes sont inversées, elles apparaissent plus souvent pour les scénarios à faible risque que quand l’utilisateur décrit un passage à l’acte.

Source : Nature Medicine

Réagissez à cet article !