ChatGPT爱用破折号是病，奥特曼刚宣布已经治好了

　　克雷西发自凹非寺

　　量子位 | 公众号 QbitAI

　　奥特曼又又又亲自官宣了 ChatGPT 的一项“重要更新”——

　　从现在起，你的 ChatGPT 可以听从指示，在输出内容中不再滥用破折号。

为啥一个普通的标点符号，能让奥特曼亲自宣传，而且还极具热度呢？

　　因为在这之前，ChatGPT 实在是太喜欢用破折号了，以至于这个标点成了人们判断 AI 生成内容的一个标志。

再加上之前的 ChatGPT 在这个问题上不是很听话，即便要求它不要加破折号，结果依然我行我素。

　　现在呢，按照奥特曼的说法，这个问题已经被修复了。

不过颇具黑色幽默的是，有网友告诉 ChatGPT 别用破折号，结果 ChatGPT 就明晃晃地在“知道了”后面加上了一个。

　　破折号困扰 OpenAI

　　ChatGPT 对破折号的“痴迷”早已让用户不胜其烦。

在 OpenAI 的官方论坛上，充斥着大量用户的吐槽帖子。许多人抱怨，无论他们如何在自定义指令中恳求甚至威胁，AI 依然会顽固地在回复中插入破折号和不必要的缩进。

　　这种标志性的写作习惯，几乎成了 AI 生成的标志，使其文本 AI 味十足，极易被识别。

用户们为了治好这个毛病，可谓想尽了办法，甚至使用了戏剧性的情感提示词（Emotional Prompt），但收效甚微。

　　事实上，破折号只是 AI 写作标记中广为人知的一个。

　　在相关的 Threads 讨论中，有用户进一步总结了 AI 写作的其它“怪癖”。

这包括过度依赖列表和子标题，仿佛不分点论述就无法思考、滥用像“不仅是X，也是Y”这样的特定重复句式等等。

　　这些 AI 标记简直像是可被轻易识别的、难以擦除的“数字水印”。

不过也有人对这些“AI 标记”持不同看法。有人指出，人们对“AI 味”的抵制有些过度，甚至非理性地憎恨任何与 AI 相关的事物已成为一种趋势。

　　但归根结底，一手造成破折号被污名化的，依然还是 ChatGPT 自身。

不过，到底是为什么，破折号如此受到 AI 的青睐呢？

　　为啥 AI 喜欢破折号

　　GitHub 软件工程师 Sean Goedecke 的一篇博客，对这个问题进行了研究。

博客从一些简单猜想开始分析，一开始给出的猜测包括破折号本身就常见，并且破折号功能丰富，而且 AI 更倾向于简洁性表达。

　　但这些猜想很快被一一否定——

关于常见性，如果破折号很常见，那么就不会成为引人注意的“AI 象征”；对于功能，虽然破折号作用确实很多，但其他标点符号也具有相似的灵活性；至于简洁性，逗号比破折号更加简洁，而且减少冗余内容比换标点更好用。

　　接着，Sean 把目光投向了大模型后训练中的一个重要环节——RLHF。

他推测，AI 对破折号的偏爱极有可能来自于 RLHF 信息提供者的语言习惯。

　　博客指出，RLHF 通常在肯尼亚、尼日利亚等低人力成本、高英语水平的非洲国家进行，因此 AI 的习惯会和这些地区的人相似。

比如像“delve”这样的词汇，在非洲英语中就非常受青睐，结果 AI 也同样高频使用。

但这个猜想并不能解释破折号被 AI 喜欢的原因，因为非洲英语当中破折号的使用频率，反而低于平均水平，甚至连十分之一都不到。

　　接下来，Sean 介绍了一个重要发现——GPT 并非从一开始就喜欢破折号，而是从 GPT-4 开始，使用频率比之前增长了十倍。

所以，问题大概率就出在 3.5 和 4 之间的这一段时期了。那么这段时间里发生了什么呢？

　　彼时，AI 的训练正在面临“数据荒”，人们开始千方百计地给 AI 寻找新的训练数据。

　　其中一个手段，就是扫描 19 世纪末到 20 世纪初的纸质书籍，然后喂给 AI。

同时，Sean 找到了一个关于英语标点符号使用频率的研究，发现这段时间刚好是破折号的使用高峰。

　　比如 1851 年美国小说家赫尔曼的《白鲸记》（Moby-Dick）当中，一共有 1728 个破折号。

Sean 认为，尽管还有一些问题未被解释，但 19 世纪出版物的引入，有很大概率就是 AI 好用破折号的“幕后黑手”。

　　[2]https://techcrunch.com/2025/11/14/openai-says-its-fixed-chatgpts-em-dash-problem/

　　[3]https://www.seangoedecke.com/em-dashes/

相关文章