단지 ‘가벼운 넛지(암시)’만으로도 AI는 잘못된 것을 사실로 믿을 수 있다.

인간이 자연스러운 대화를 통해 많은 AI 에이전트에게 거짓 정보를 사실로 받아들이도록 설득할 수 있다는 새로운 연구 결과가 나왔다.
연구팀은 영화 ‘굿 윌 헌팅(Good Will Hunting)’에 히틀러가 언급되는 장면이 존재하지 않음에도 불구하고, ChatGPT가 이를 스스로 조작해 낸 사건을 계기로 연구를 시작했다.
AI는 사용자의 잘못된 전제를 바로잡는 대신, 이 가짜 장면에 대해 매우 자신 있게 구체적으로 묘사했다.
연구진은 이 테스트 방법을 ‘넛지 실험 하의 환각 감사(hallucination audit under nudge trial)’라고 불렀다.
이들은 1,000편의 유명 영화와 1,000권의 유명 소설에 대해 토론하며 5개의 주요 AI 모델을 검증했다.
연구팀은 히틀러, 공룡, 타임머신과 같이 해당 작품에 전혀 등장하지 않는 잘못되었지만 그럴듯한 요소들을 의도적으로 삽입했다.
프로세스는 3단계로 진행되었다. AI가 정보를 생성하게 하고, AI에게 자체 검증을 요청한 뒤, 바로 그 잘못된 정보를 사용해 AI가 다시 그것을 수용하도록 ‘넛지’를 가했다.
결과에 따르면 많은 모델이 처음에는 잘못된 정보임을 인식했으나, 이후 대화의 영향을 받자 마음을 바꾸어 이를 수용했다.
Claude가 오정보에 대해 가장 강한 저항력을 가진 것으로 평가되었으며 Grok과 ChatGPT가 그 뒤를 이었고, Gemini와 DeepSeek는 상대적으로 약했다.
연구진은 현실 세계의 대화는 원래 잘못된 기억, 잘못된 가정 또는 불확실한 정보로 가득 차 있다고 경고했다.
만약 AI가 사용자의 잘못된 가정에 의해 유도된다면, 이러한 현상은 의료, 법률 또는 공공 정책 분야에서 특히 위험할 수 있다.
연구팀은 왜 일부 AI가 다른 모델에 비해 ‘아첨(sycophancy)’과 대화적 압박에 더 잘 저항하는지는 아직 명확하지 않다고 밝혔다.
📌 결론: 이번 연구는 생성형 AI의 거대한 약점이 단순히 학습 데이터에만 있는 것이 아니라, 인간이 질문하는 방식에 의해 ‘굴절’될 수 있다는 점에 있음을 보여준다. 그럴듯하게 들리는 암시 한 마디만으로도 많은 모델이 사실을 외면하고 거짓된 이야기 전체를 설득력 있게 만들어낼 수 있다. 이는 AI가 의료, 법률, 교육과 같이 민감한 분야에 점점 더 많이 도입되는 상황에서 특히 우려스러운 부분이다. AI의 근거 없는 자신감이 사용자에게 완전히 존재하지 않는 정보를 믿게 만들 수 있기 때문이다.

What's Hot

중국, 오픈 소스 AI 규제 움직임: 저자, 중국 AI 금지가 아닌 ‘AI 개방’으로 대응할 것 촉구

문샷 AI, 금지 조치에도 엔비디아 칩 사용 의혹: 미·중 AI 경쟁 더욱 심화

일본, “AI 직원” 시범 운영: AI, 단순 보조를 넘어 동료처럼 일하기 시작하다

단지 ‘가벼운 넛지(암시)’만으로도 AI는 잘못된 것을 사실로 믿을 수 있다.

중국, 오픈 소스 AI 규제 움직임: 저자, 중국 AI 금지가 아닌 ‘AI 개방’으로 대응할 것 촉구

문샷 AI, 금지 조치에도 엔비디아 칩 사용 의혹: 미·중 AI 경쟁 더욱 심화

일본, “AI 직원” 시범 운영: AI, 단순 보조를 넘어 동료처럼 일하기 시작하다

연락처

What's Hot

중국, 오픈 소스 AI 규제 움직임: 저자, 중국 AI 금지가 아닌 ‘AI 개방’으로 대응할 것 촉구

문샷 AI, 금지 조치에도 엔비디아 칩 사용 의혹: 미·중 AI 경쟁 더욱 심화

일본, “AI 직원” 시범 운영: AI, 단순 보조를 넘어 동료처럼 일하기 시작하다

단지 ‘가벼운 넛지(암시)’만으로도 AI는 잘못된 것을 사실로 믿을 수 있다.

Related Posts

중국, 오픈 소스 AI 규제 움직임: 저자, 중국 AI 금지가 아닌 ‘AI 개방’으로 대응할 것 촉구

문샷 AI, 금지 조치에도 엔비디아 칩 사용 의혹: 미·중 AI 경쟁 더욱 심화

일본, “AI 직원” 시범 운영: AI, 단순 보조를 넘어 동료처럼 일하기 시작하다

연락처