• 스탠포드와 예일 대학의 새로운 연구에 따르면 대규모 언어 모델은 단순히 “학습”하는 것이 아니라 책 내용을 저장하고 원문 그대로 재생산하는 것으로 나타났습니다.
  • OpenAI의 GPT, 앤스로픽(Anthropic)의 클로드(Claude), 구글의 제미나이(Gemini), xAI의 그록(Grok) 등 4개 인기 모델이 저작권이 있는 콘텐츠를 기억하고 있는 것으로 밝혀졌습니다.
  • 적절한 프롬프트가 주어졌을 때, 클로드는 ‘해리 포터와 마법사의 돌’, ‘위대한 개츠비’, ‘1984’, ‘프랑켄슈타인’의 거의 전체를 재생산할 수 있었습니다.
  • 총 13권의 책이 테스트되었으며, 많은 책에서 수천 개의 단어가 거의 원문 그대로 추출되었습니다.
  • 이 현상은 “암기(memorization)”라고 불리며, 모델이 훈련 데이터의 사본을 저장하지 않는다는 AI 기업들의 이전 주장과 모순됩니다.
  • OpenAI와 구글은 모델이 언어적 “패턴”만 저장할 뿐 원본 콘텐츠는 유지하지 않는다고 주장해 왔습니다.
  • 실제로 LLM은 MP3나 JPEG와 유사하게 데이터를 압축하지만 핵심은 유지하는 손실 압축 형태로 작동합니다.
  • 독일 법원은 챗GPT를 압축 파일에 비유하며 GEMA 소송에서 OpenAI에 불리한 판결을 내린 바 있습니다.
  • 스테이블 디퓨전(Stable Diffusion)과 같은 AI 이미지 생성기도 원본 그림이나 사진과 거의 유사하게 재생산하는 것으로 밝혀졌습니다.
  • 모델들은 문구뿐만 아니라 구조, 이미지, 예술적 스타일까지 복제할 수 있습니다.
  • 다른 연구에 따르면 LLM이 생성한 콘텐츠의 8~15%는 이미 웹상에 원문 그대로 존재합니다.
  • 이는 막대한 법적 위험을 초래하여 AI가 시장에서 퇴출당하거나 처음부터 다시 훈련해야 할 수도 있습니다.
  • 샘 알트먼은 AI의 “학습 권리”를 옹호하지만, 연구계는 인간과의 비교가 오해를 불러일으킨다고 봅니다.
  • 전문가들은 암기가 드문 오류가 아니라 고유한 특성이라고 판단합니다.

📌 스탠포드와 예일 대학의 새로운 연구는 대규모 언어 모델이 단순히 “학습”하는 것이 아니라 책 내용을 저장하고 원문 그대로 재생산한다는 것을 보여줍니다. 이 발견은 생성형 AI 산업의 이론적 기반을 흔들고 있습니다. 인간처럼 “학습”하는 대신 모델은 데이터를 압축하고 검색하는 방식으로 작동하여 대규모 저작권 침해 위험을 초래합니다. 법원이 AI 모델을 불법 복제본으로 간주할 경우, 이 산업은 수십억 달러의 벌금에 직면할 수 있으며 향후 AI 개발 방식 전체를 재구조화해야 할 수도 있습니다.

Share.
연락처

이메일: info@vietmetric.vn
주소: 베트남 하노이시 옌호아 동 쩐주이흥 거리 91번 골목 34번

© 2026 Vietmetric
Exit mobile version