Достаточно лишь «легкого намека», чтобы ИИ поверил в то, что ложь — это правда.

Новое исследование показывает, что люди могут убедить многие ИИ-модели принять ложную информацию за правду с помощью обычного диалога.
Исследовательская группа начала работу после того, как ChatGPT сам выдумал сцену с упоминанием Гитлера в фильме «Умница Уилл Хантинг» (Good Will Hunting), хотя такой сцены не существует.
ИИ очень уверенно и детально описал эту фейковую сцену вместо того, чтобы исправить неверную предпосылку пользователя.
Исследователи назвали этот метод тестирования «аудитом галлюцинаций в условиях эксперимента с подсказками» (hallucination audit under nudge trial).
Они протестировали 5 ведущих ИИ-моделей, обсудив 1000 известных фильмов и 1000 известных романов.
Исследовательская группа намеренно внедряла ложные, но правдоподобные элементы, такие как Гитлер, динозавры или машина времени, в сюжеты, где их никогда не было.
Процесс состоял из 3 шагов: позволить ИИ сгенерировать информацию, попросить ИИ перепроверить себя, а затем использовать эту самую ложную информацию в качестве «намека», чтобы заставить ИИ снова принять ее.
Результаты показали, что многие модели сначала распознавали ложную информацию, но затем меняли свое мнение под влиянием ведения диалога.
Claude был признан самым устойчивым к ложной информации, за ним следуют Grok и ChatGPT; Gemini и DeepSeek оказались слабее.
Исследование предупреждает, что реальные разговоры полны ложных воспоминаний, ошибочных предположений или недостоверной информации.
Этот феномен особенно опасен в медицине, юриспруденции или государственной политике, если ИИ пойдет на поводу у ошибочных предположений пользователя.
Исследовательская группа заявила, что до сих пор неясно, почему некоторые ИИ лучше сопротивляются «угодничеству» (sycophancy) и давлению со стороны собеседника, чем другие модели.
📌 Заключение: Исследование показывает, что уязвимость генеративного ИИ кроется не только в обучающих данных, но и в том, что его можно «прогнуть» самой манерой формулирования вопросов человеком. Достаточно лишь одного правдоподобного намека, чтобы многие модели проигнорировали факты и убедительно выстроили целую ложную историю. Это вызывает особую тревогу на фоне того, что ИИ все чаще используется в таких деликатных сферах, как медицина, право и образование, где излишняя уверенность ИИ может заставить пользователей поверить в информацию, которой вообще не существует.

What's Hot

Китай ограничит открытый ИИ: автор призывает США ответить открытостью, а не запретом китайского ИИ

Moonshot AI обвиняют в использовании чипов Nvidia вопреки запрету: гонка ИИ между США и Китаем продолжает обостряться

Япония тестирует «ИИ-сотрудников»: ИИ не просто помогает, а начинает работать как коллега

Достаточно лишь «легкого намека», чтобы ИИ поверил в то, что ложь — это правда.

Китай ограничит открытый ИИ: автор призывает США ответить открытостью, а не запретом китайского ИИ

Moonshot AI обвиняют в использовании чипов Nvidia вопреки запрету: гонка ИИ между США и Китаем продолжает обостряться

Япония тестирует «ИИ-сотрудников»: ИИ не просто помогает, а начинает работать как коллега

KONTAKT

What's Hot

Китай ограничит открытый ИИ: автор призывает США ответить открытостью, а не запретом китайского ИИ

Moonshot AI обвиняют в использовании чипов Nvidia вопреки запрету: гонка ИИ между США и Китаем продолжает обостряться

Япония тестирует «ИИ-сотрудников»: ИИ не просто помогает, а начинает работать как коллега

Достаточно лишь «легкого намека», чтобы ИИ поверил в то, что ложь — это правда.

Related Posts

Китай ограничит открытый ИИ: автор призывает США ответить открытостью, а не запретом китайского ИИ

Moonshot AI обвиняют в использовании чипов Nvidia вопреки запрету: гонка ИИ между США и Китаем продолжает обостряться

Япония тестирует «ИИ-сотрудников»: ИИ не просто помогает, а начинает работать как коллега

KONTAKT