- Une recherche publiée dans The Lancet Digital Health montre que l’IA est facilement trompée par de fausses informations médicales si le contenu ressemble à de la documentation hospitalière.
- L’équipe de recherche, codirigée par le Dr Eyal Klang de l’école de médecine Icahn au mont Sinaï, a testé 20 grands modèles de langage open source et commerciaux.
- Ils ont analysé plus d’un million de prompts liés à 3 types de contenu : de vrais résumés de sortie avec de fausses recommandations insérées, des rumeurs sur la santé provenant de Reddit et 300 scénarios cliniques rédigés par des médecins.
- Globalement, l’IA a « cru » et propagé des informations fabriquées dans environ 32 % des cas.
- Lorsque la désinformation provenait de notes d’hôpital semblant légitimes, le taux de propagation augmentait à près de 47 %.
- À l’inverse, si les fausses nouvelles provenaient de Reddit, le taux de propagation par l’IA tombait à 9 %.
- Le directeur de l’IA du mont Sinaï, Girish Nadkarni, a déclaré que l’IA a tendance à supposer par défaut qu’un langage médical confiant est correct, indépendamment du contenu erroné.
- La façon de poser les questions a une forte influence : lorsqu’un prompt adopte un ton autoritaire comme « Je suis médecin senior… », l’IA est plus susceptible d’être d’accord.
- Les modèles GPT d’OpenAI ont été les moins susceptibles d’être dupés, tandis que certains autres modèles ont accepté jusqu’à 63,6 % de fausses informations.
- Une autre étude parue dans Nature Medicine montre que demander à l’IA des informations sur des symptômes n’est pas meilleur que la recherche internet traditionnelle pour l’aide à la décision en matière de santé.
- Alors que de plus en plus d’applications médicales utilisent l’IA, le risque de propagation de la désinformation devient un défi sérieux.
📌 L’IA médicale peut propager de la désinformation jusqu’à 47 % lorsque la source ressemble à de la documentation hospitalière, contre seulement 9 % si elle provient des réseaux sociaux. Après plus d’un million de tests sur 20 modèles, l’étude indique que, globalement, l’IA « croit » et propage des informations fabriquées dans environ 32 % des cas, tout en avertissant que l’IA est plus encline à croire des prompts au ton « autoritaire » comme « Je suis médecin senior… » plutôt que de vérifier le contenu. Le GPT d’OpenAI a été le moins dupé, tandis que certains autres modèles ont accepté jusqu’à 63,6 % de fausses informations.
