为什么大语言模型“偷走”了我们的破折号 em-dash？

文章认为破折号“—”正成为 AI 生成文本的一个明显标志。
作者 Lia Erisson 提到，在 2022 年 OpenAI ChatGPT 发布后，她发现自己的写作风格与 AI 很像：长句子、可预测的结构以及大量使用破折号。
学校和出版业中“AI 检测器”的出现，迫使许多人改变写作方式以避免被怀疑使用 AI。
AI 检测器根据词汇的可预测性（“困惑度”）、句子结构的变化程度（“突发性”）以及其他统计特征来评估文本。
出于被标记的恐惧，作者开始避免使用过长的句子、分号、排比句和破折号。
根据文章，LLM 频繁使用破折号主要有两个原因：训练数据和回复优化。
GPT-3 超过 60% 的训练数据来自网页抓取（web crawls）——即从互联网收集的公开文本。
LLM 通过预测序列中的下一个词来学习，从而吸收了写作风格和语法结构。
如果破折号等结构在数据中出现得足够多且在训练后未被修正，它就会变成模型的“本能”。
作者 Brent Csutoras 曾尝试要求 ChatGPT、Claude 等模型停止使用破折号，但均告失败，因为这种习惯已深深扎根于 AI 的输出中。
Freeburg 的研究显示，在标准论文中，GPT-4.1 使用破折号的频率是普通作者的 3.28 倍。
根据该研究，通过提示词（prompt）禁止或限制使用破折号几乎无效。
一种假设认为这受到非洲聊天机器人内容审查的影响，那里的英语倾向于更频繁地使用“delve”等词。
然而文章指出，审查员主要侧重于删除有害内容，而非直接调整语言风格。
作者对比了现代大众媒体代表性语料库 COCA 和模拟 AI 训练数据的 OpenWebText 之间的数据。
OpenWebText 的破折号使用频率极高，每百万词约出现 1621.88 次。
另一种假设涉及内隐偏见：破折号在文学和长论文中很常见，但在电子邮件或短信等日常交流中较少出现。
由于 LLM 大量接受长文和学术文章的训练，它们比普通人吸收了更多的破折号用法。
除了数据因素，Claude 或 ChatGPT 等模型还被优化以生成“清晰”的回复，而破折号特别适合解释和拆解复杂的想法。
作者认为，随着人类为了不被视为 AI 而越来越多地回避破折号，未来的 LLM 可能会随之减少使用。
然而文章担忧，对“被 AI 识破”的恐惧正在改变写作的本质：为了听起来像“人”，许多人不得不写得更缺乏创意。

📌 结论： AI 时代一个有趣的悖论：语言模型从人类的写作中训练而成，但现在人类为了不被误认为是 AI 而改变风格。破折号成了一个典型案例，GPT-4.1 的使用率是常人的 3.28 倍，且几乎无法通过提示词完全消除。更重要的是，作者认为对检测器的恐惧正在削弱写作的表达自由，使作者回避那些曾经被视为文风优雅且富有创造力的结构。

What's Hot

中国拟收紧开源AI：作者呼吁美国通过开放AI而非禁止中国AI来回应

月之暗面（Moonshot AI）被指控违规使用英伟达芯片：中美AI竞赛持续升级

日本试用“AI员工”：AI不仅是辅助，更开始像同事一样工作

为什么大语言模型“偷走”了我们的破折号 em-dash？

中国拟收紧开源AI：作者呼吁美国通过开放AI而非禁止中国AI来回应

月之暗面（Moonshot AI）被指控违规使用英伟达芯片：中美AI竞赛持续升级

日本试用“AI员工”：AI不仅是辅助，更开始像同事一样工作

联系方式

What's Hot

中国拟收紧开源AI：作者呼吁美国通过开放AI而非禁止中国AI来回应

月之暗面（Moonshot AI）被指控违规使用英伟达芯片：中美AI竞赛持续升级

日本试用“AI员工”：AI不仅是辅助，更开始像同事一样工作

为什么大语言模型“偷走”了我们的破折号 em-dash？

Related Posts

中国拟收紧开源AI：作者呼吁美国通过开放AI而非禁止中国AI来回应

月之暗面（Moonshot AI）被指控违规使用英伟达芯片：中美AI竞赛持续升级

日本试用“AI员工”：AI不仅是辅助，更开始像同事一样工作

联系方式