Avec une simple « légère suggestion », l’IA peut croire que des faits erronés sont réels.

Une nouvelle étude montre que les humains peuvent convaincre de nombreux modèles d’IA d’accepter de fausses informations comme des vérités par le biais d’une conversation naturelle.
L’équipe de recherche a lancé cette étude après que ChatGPT a fabriqué de toutes pièces une scène mentionnant Hitler dans le film « Good Will Hunting », alors que cette scène n’existe pas.
L’IA a décrit en détail cette fausse scène avec une grande assurance, au lieu de corriger la fausse prémisse de l’utilisateur.
Les chercheurs ont qualifié cette méthode de test d’« hallucination audit under nudge trial » (audit d’hallucination sous test d’incitation).
Ils ont testé 5 modèles d’IA de premier plan en discutant de 1 000 films célèbres et 1 000 romans connus.
L’équipe de recherche a délibérément introduit des éléments faux mais plausibles, comme Hitler, des dinosaures ou une machine à voyager dans le temps, dans des contenus qui n’en contenaient pas du tout.
Le processus comprenait 3 étapes : laisser l’IA générer l’information, demander à l’IA de s’auto-vérifier, puis utiliser cette même fausse information pour « inciter » l’IA à l’accepter de nouveau.
Les résultats ont montré que de nombreux modèles reconnaissaient initialement la fausse information, mais changeaient d’avis par la suite sous l’influence de la conversation.
Claude a été évalué comme le plus résistant aux fausses informations, suivi de Grok et ChatGPT ; Gemini et DeepSeek se sont révélés plus faibles.
L’étude prévient que les conversations de la vie réelle regorgent déjà de faux souvenirs, de fausses hypothèses ou d’informations incertaines.
Ce phénomène est particulièrement dangereux dans la santé, le droit ou les politiques publiques si l’IA se laisse guider par les fausses hypothèses de l’utilisateur.
L’équipe de recherche a déclaré qu’on ne savait pas encore pourquoi certaines IA résistaient mieux à la « sycophantie » (tendance à l’assentiment) et à la pression conversationnelle que d’autres modèles.
📌 Conclusion : L’étude démontre qu’une faiblesse majeure de l’IA générative ne réside pas uniquement dans ses données d’entraînement, mais aussi dans sa capacité à être « déformée » par la manière dont les humains posent les questions. Il suffit d’une suggestion qui semble plausible pour que de nombreux modèles fassent l’impasse sur la vérité et construisent toute une histoire fausse de manière convaincante. C’est particulièrement inquiétant alors que l’IA est de plus en plus utilisée dans des domaines sensibles comme la santé, le droit et l’éducation, où l’assurance de l’IA peut amener les utilisateurs à croire en des informations qui n’existent absolument pas.

What's Hot

La Chine s’apprête à restreindre l’IA open-source : l’auteur appelle les États-Unis à riposter par l’ouverture, non par l’interdiction de l’IA chinoise

Moonshot AI accusé d’utiliser des puces Nvidia malgré l’interdiction : la course à l’IA entre les États-Unis et la Chine continue de s’intensifier

Le Japon teste les « employés IA » : l’IA ne se contente plus d’assister, elle commence à travailler comme un collègue

Avec une simple « légère suggestion », l’IA peut croire que des faits erronés sont réels.

La Chine s’apprête à restreindre l’IA open-source : l’auteur appelle les États-Unis à riposter par l’ouverture, non par l’interdiction de l’IA chinoise

Moonshot AI accusé d’utiliser des puces Nvidia malgré l’interdiction : la course à l’IA entre les États-Unis et la Chine continue de s’intensifier

Le Japon teste les « employés IA » : l’IA ne se contente plus d’assister, elle commence à travailler comme un collègue

Contact

What's Hot

La Chine s’apprête à restreindre l’IA open-source : l’auteur appelle les États-Unis à riposter par l’ouverture, non par l’interdiction de l’IA chinoise

Moonshot AI accusé d’utiliser des puces Nvidia malgré l’interdiction : la course à l’IA entre les États-Unis et la Chine continue de s’intensifier

Le Japon teste les « employés IA » : l’IA ne se contente plus d’assister, elle commence à travailler comme un collègue

Avec une simple « légère suggestion », l’IA peut croire que des faits erronés sont réels.

Related Posts

La Chine s’apprête à restreindre l’IA open-source : l’auteur appelle les États-Unis à riposter par l’ouverture, non par l’interdiction de l’IA chinoise

Moonshot AI accusé d’utiliser des puces Nvidia malgré l’interdiction : la course à l’IA entre les États-Unis et la Chine continue de s’intensifier

Le Japon teste les « employés IA » : l’IA ne se contente plus d’assister, elle commence à travailler comme un collègue

Contact