• 文章认为破折号“—”正成为 AI 生成文本的一个明显标志。
  • 作者 Lia Erisson 提到,在 2022 年 OpenAI ChatGPT 发布后,她发现自己的写作风格与 AI 很像:长句子、可预测的结构以及大量使用破折号。
  • 学校和出版业中“AI 检测器”的出现,迫使许多人改变写作方式以避免被怀疑使用 AI。
  • AI 检测器根据词汇的可预测性(“困惑度”)、句子结构的变化程度(“突发性”)以及其他统计特征来评估文本。
  • 出于被标记的恐惧,作者开始避免使用过长的句子、分号、排比句和破折号。
  • 根据文章,LLM 频繁使用破折号主要有两个原因:训练数据和回复优化。
  • GPT-3 超过 60% 的训练数据来自网页抓取(web crawls)——即从互联网收集的公开文本。
  • LLM 通过预测序列中的下一个词来学习,从而吸收了写作风格和语法结构。
  • 如果破折号等结构在数据中出现得足够多且在训练后未被修正,它就会变成模型的“本能”。
  • 作者 Brent Csutoras 曾尝试要求 ChatGPT、Claude 等模型停止使用破折号,但均告失败,因为这种习惯已深深扎根于 AI 的输出中。
  • Freeburg 的研究显示,在标准论文中,GPT-4.1 使用破折号的频率是普通作者的 3.28 倍。
  • 根据该研究,通过提示词(prompt)禁止或限制使用破折号几乎无效。
  • 一种假设认为这受到非洲聊天机器人内容审查的影响,那里的英语倾向于更频繁地使用“delve”等词。
  • 然而文章指出,审查员主要侧重于删除有害内容,而非直接调整语言风格。
  • 作者对比了现代大众媒体代表性语料库 COCA 和模拟 AI 训练数据的 OpenWebText 之间的数据。
  • OpenWebText 的破折号使用频率极高,每百万词约出现 1621.88 次。
  • 另一种假设涉及内隐偏见:破折号在文学和长论文中很常见,但在电子邮件或短信等日常交流中较少出现。
  • 由于 LLM 大量接受长文和学术文章的训练,它们比普通人吸收了更多的破折号用法。
  • 除了数据因素,Claude 或 ChatGPT 等模型还被优化以生成“清晰”的回复,而破折号特别适合解释和拆解复杂的想法。
  • 作者认为,随着人类为了不被视为 AI 而越来越多地回避破折号,未来的 LLM 可能会随之减少使用。
  • 然而文章担忧,对“被 AI 识破”的恐惧正在改变写作的本质:为了听起来像“人”,许多人不得不写得更缺乏创意。

📌 结论: AI 时代一个有趣的悖论:语言模型从人类的写作中训练而成,但现在人类为了不被误认为是 AI 而改变风格。破折号成了一个典型案例,GPT-4.1 的使用率是常人的 3.28 倍,且几乎无法通过提示词完全消除。更重要的是,作者认为对检测器的恐惧正在削弱写作的表达自由,使作者回避那些曾经被视为文风优雅且富有创造力的结构。

Share.
VIET NAM CONSULTING AND MEASUREMENT JOINT STOCK COMPANY
联系方式

电子邮件: info@vietmetric.vn
地址:河内市安和坊陈维兴街91巷34号

© 2026 Vietmetric
Exit mobile version