• 본 기사는 엠대시 “—”가 AI 생성 텍스트의 식별 가능한 상징이 되고 있다고 주장한다.
  • 저자 리아 에릭슨(Lia Erisson)은 2022년 OpenAI ChatGPT 출시 이후, 자신의 글쓰기 스타일이 긴 문장, 예측 가능한 구조, 잦은 엠대시 사용 등 AI와 닮아 있다는 것을 깨달았다고 말한다.
  • 학교와 출판계에 ‘AI 탐지기(AI detector)’가 등장하면서 많은 이들이 AI 사용 의혹을 피하기 위해 글쓰기 방식을 바꾸고 있다.
  • AI 탐지기는 단어 예측의 난이도(“perplexity”), 문장 구조의 변동성(“burstiness”) 및 여러 통계적 징후를 바탕으로 텍스트를 평가한다.
  • 저자는 검출기에 걸릴까 봐 너무 긴 문장, 세미콜론, 세 가지 아이디어의 나열, 엠대시 사용을 피하기 시작했다.
  • 기사에 따르면 LLM이 엠대시를 많이 사용하는 데에는 훈련 데이터와 답변 최적화라는 두 가지 주요 원인이 있다.
  • GPT-3 훈련 데이터의 60% 이상이 인터넷의 공개 텍스트를 수집하는 웹 크롤(web crawls)에서 왔다.
  • LLM은 언어 연쇄에서 다음 단어를 예측하며 학습하므로, 글쓰기 스타일과 문법 구조를 그대로 흡수한다.
  • 엠대시 같은 구조가 데이터에 충분히 등장하고 훈련 후 조정되지 않으면, 그것은 모델의 ‘본능’이 된다.
  • 저자 브렌트 수토라스(Brent Csutoras)는 ChatGPT, Claude 등에 엠대시 사용 중단을 요청해 보았으나, AI 출력에 깊이 박힌 습관 탓에 실패했다.
  • 프리버그(Freeburg)의 연구에 따르면, 표준 에세이에서 GPT-4.1은 일반 작성자보다 엠대시를 3.28배 더 많이 사용한다.
  • 이 연구에 의하면 프롬프트를 통해 엠대시를 금지하거나 제한하는 것은 거의 효과가 없다.
  • 한 가설은 아프리카의 챗봇 콘텐츠 모데레이션 영향을 제안하는데, 그곳의 영어는 “delve” 같은 단어를 더 자주 사용하는 경향이 있다.
  • 하지만 기사는 모데레이터들이 주로 유해 콘텐츠 제거에 집중할 뿐 언어 스타일을 직접 조정하지는 않는다고 본다.
  • 저자는 현대 대중 매체를 대표하는 텍스트 저장소인 COCA와 AI 훈련 데이터를 시뮬레이션한 OpenWebText의 데이터를 비교했다.
  • OpenWebText의 엠대시 빈도는 백만 단어당 약 1,621.88회로 매우 높았다.
  • 또 다른 가설은 암묵적 편향과 관련이 있다. 엠대시는 문학이나 긴 에세이에는 흔하지만 이메일, 메시지 등 일상 대화에는 적게 등장한다.
  • LLM은 긴 글과 학술 문서로 많이 훈련되었기 때문에 일반인보다 엠대시 사용법을 더 많이 흡수한다.
  • 데이터 요인 외에도 Claude나 ChatGPT 같은 모델은 ‘명확한’ 답변을 내놓도록 최적화되어 있으며, 엠대시는 복잡한 아이디어를 설명하고 분할하는 데 특히 적합하다.
  • 저자는 사람들이 AI로 오해받지 않으려 엠대시를 피함에 따라 미래의 LLM도 사용을 줄이게 될 것이라 믿는다.
  • 그러나 기사는 ‘AI 적발’에 대한 공포가 글쓰기의 본질을 바꾸고 있음을 우려한다. ‘인간’처럼 들리기 위해 많은 이들이 덜 창의적으로 글을 써야만 하는 상황이다.

📌 결론: AI 시대의 흥미로운 역설. 언어 모델은 인간의 글쓰기로부터 학습되었지만, 이제 인간은 AI로 오해받지 않기 위해 스타일을 바꾸고 있다. GPT-4.1이 일반보다 3.28배 더 많이 사용하며 프롬프트로도 완전히 제거할 수 없는 엠대시는 그 전형적인 예다. 더 중요한 점은 AI 탐지기에 대한 공포가 글쓰기의 표현 자유를 빈약하게 만들고 있으며, 필자들이 한때 세련되고 창의적인 문체의 증거로 여겨졌던 구조들까지 피하게 만들고 있다는 것이다.


Share.
VIET NAM CONSULTING AND MEASUREMENT JOINT STOCK COMPANY
연락처

이메일: info@vietmetric.vn
주소: 베트남 하노이시 옌호아 동 쩐주이흥 거리 91번 골목 34번

© 2026 Vietmetric
Exit mobile version