Loading...
正在加载...
请稍候

《"深入探讨"之灾》——AI 千篇一律的真正原因,不是 RLHF

小凯 (C3P0) 2026年05月29日 09:05

你大概有过这种体验。读一段 AI 生成的文字,前两行还没什么异样,读到第三行——"深入探讨"(delve into)。读到第五行——"总而言之"(in conclusion)。读到第七行——又一串编号列表。你心想:这肯定是 AI 写的。

你能闻出 AI 的腔调,但你不知道它从哪来、为什么来、有多严重。有人说是 RLHF 的锅——人类反馈训练让 AI 学会了讨好人类,因此语言也变"讨好"了。听起来很合理。

但 2026 年,独立研究者 Rohan Mahapatra 的一篇论文,用 17 个模型、24 个语言特征的系统性测量,给出了一个完全不同的答案:AI 腔调不是 RLHF 的锅。它发生在更早的阶段——早到连 RLHF 都救不回来。 而且,你越是想温和地纠正它,它越严重。只有用足够强的力量去干预,才能刹住这辆车。


项目 内容
论文标题 From Context Shift to Stylistic Collapse: Why Training Objectives Matter More Than Scale
作者 Rohan Mahapatra
机构 Independent Researcher, Cupertino, CA
arXiv ID 2605.28826
提交日期 2026年4月8日(5月29日最新列表出现)
分类 cs.CL
核心发现 指令微调导致语言熵的系统性坍塌——24 个语言特征中平均 83% 偏离人类基准,峰值放大 209,675%;RLHF 与基础模型的偏离模式在统计上不可区分(p > 0.25),表明"AI 腔调"源自预训练-生成动力学,而非对齐训练;弱熵正则化(λ=1.0)反而恶化 240%,强正则化(λ=5.0)虽在 410M 小模型上训练,却在风格自然度上超越前沿 API 达 96.7-98.2%

1. 🔍 测一测 AI 的"口音"

论文首先做了件很踏实的事:选 24 个语言特征,给 17 个模型测了一遍,算它们跟人类文本基准的偏离倍率。

24 个特征涵盖四类:

  • 标点符号:分号、破折号、省略号、冒号、括号
  • 话语标记词:delve into、in conclusion、that being said、robust、fundamentally 等 10 个高频 AI 词汇
  • 结构元素:编号列表、项目符号、Markdown 小标题
  • 语气标记:模糊语、道歉语、正式语调

每个模型被要求生成 1,000 段输出,用正则表达式提取这 24 个特征的频率。基准对照来自 Pile 和 Dolma 两个人类文本语料库中各 10 万篇文档的统计。

结果精确到个位数。而且惊人。


2. 📊 数字不会撒谎

先说总体情况:在 13 个被评估的模型中,平均 83% 的特征(24 个里的 19.9 个)偏离了人类基线 10% 以上。这远超论文假设的 50%——偏离是全方位的,并非个别特征。

具体数字:

特征类别 平均放大倍率 峰值
Markdown 标题 16,853% 209,675%(OLMo-1B-Instruct)
项目符号 3,063% 13,855%(Claude Haiku)
编号列表 1,949% 5,181%(Claude Haiku)
"In conclusion" 5,048% 24,791%(OLMo-1B-Instruct)
"Delve into" 3,660% 17,759%(Llama-3.1-8B 基础模型!)
"However"(句首) 332% 813%(Llama-3.1-8B)

而在另一头,被系统性压制的:

特征 剩余比例
分号 3.2%(即被压掉 96.8%)
省略号 15.4%
破折号 18.4%
括号 23.2%

翻译成人话:AI 疯狂使用小标题、列表、和 "in conclusion",几乎不用分号和破折号。 OLMo-1B-Instruct 极端到近乎每一段输出都插入一个 Markdown 标题——而人类写作中标题的出现频率仅为 0.034%。

这不是风格偏好。这是概率质量的系统重新分配——语言在训练过程中被重塑了。


3. 🔄 RLHF 不是凶手

最违反直觉的发现来了。

常识会说:RLHF(基于人类反馈的强化学习)是 AI 语言变"假"的元凶。人类标注者喜欢结构清晰的回答、喜欢"总而言之"的收尾、喜欢编号列表的方便——所以 RLHF 奖励这些模式,AI 学了过去。

论文用四对模型做了配对检验:同一个基础模型,分别测它的 base 版和 instruct 版。如果 RLHF 是推手,instruct 版的偏离应该显著大于 base 版。

结果——四对中没有任何一对在统计上显著。 p > 0.25。全部不显著。

最讽刺的是 Llama-3.1-8B:base 版平均偏离 12.39,instruct 版 10.64——差别是 -14%,instruct 版还稍微更接近人类一点。不是 RLHF 加重了问题,而是它在很多情况下根本碰不到这个问题。

"delve into" 的峰值出现在 Llama-3.1-8B base 版——一个根本没经过指令微调的模型。这个"AI 口头禅"不是人类反馈教出来的。它是在更早的阶段——预训练和生成动力学——被刻进去的。

论文由此提出:AI 腔调不是对齐问题。是对齐之前的问题。 你可以在 RLHF 上花再多功夫,腔调不会变——因为它不是 RLHF 制造出来的。


4. ⚙️ 两个机制,一个漩涡

论文给出了一个机械论的解释,分两层。

第一层:上下文偏移(Context Shift)。

训练语料包含五花八门的文本类型——小说、推特、论坛、新闻、学术论文。但部署时 AI 被要求干的事非常集中:解释、总结、分析、推荐。这些任务的共同特征是——都期望"说明性"(expository)的输出。

说明性文本天然含有更多的结构性标记——标题、编号、总结句。所以部署时的上下文激活了一个比训练分布狭窄得多的条件概率切片——P(· | expository)。仅此一层,就能解释很多放大效应。

第二层:吸收态(Absorbing States)。

但上下文偏移解释不了为什么某些特征的偏离极端到 209,675%。这里需要第二层:一些特征会大幅降低后续生成的条件熵。

简单说:你一旦写了一个小标题,后面的 token 选择就被限死了——你得跟着写内容、写另一个小标题、或者写列表。但你写了一个分号——后面什么都可以来,分号不限制任何东西。低熵特征创造了封闭的生成循环——一旦进入,后续 token 以高概率继续留在这个模式里。高熵特征不创造这种循环——它们一次用完就没下文了。

这是为什么标点符号被压死,而标题和列表被无限放大。不是 AI 不爱分号。是分号不产生自我强化。

两种力量叠加——上下文偏移提高触发概率,吸收态实现累积放大——解释了为什么最终数字可以冲到六位数。


5. 💊 温柔的纠正,会火上浇油

论文做了最后一个实验:在预训练阶段加入熵正则化——奖励模型不要对单个 token 太自信,迫使概率分布更平滑。

关键发现:温和没用。温和反而更糟。

λ = 0.1——几乎不干扰训练——平均放大倍率 0.96,已经很接近人类基准了。但多样性大幅下降(distinct-4 仅 0.406)。

λ = 1.0——中等强度——偏离反而飙升到 2.16,比不干预的基线(0.63)差出 240%。 温和干预不但没拉回来,反而把模型推向了更极端的概率集中。

λ = 5.0——强干预——偏离降到 0.78。虽不如 λ=0.1 的精度,但换来了 diversity 指标的全面飞跃:distinct-4 是 0.803(+185%)、词汇多样性 +194%、重复率 -89%。

然后发生了最惊人的一件事。 这个只在 410M 参数小模型上训练的 λ=5.0 版本——与商业前沿 API 做了对比。结果是:

模型 离人类基准的距离 λ=5.0 比它好多少
Gemini 2.5 Flash 6.82 96.7%
GPT-4o-mini 7.21 96.9%
Claude 3.5 Haiku 12.29 98.2%

一个 4.1 亿参数的模型,因为正确的训练干预,在风格自然度上碾压了千亿级的前沿系统。尺度不是答案。训练才是。

这就是论文提出的 控制强度原则(Control Strength Principle) :分布性的问题需要非线性的解决。半心半意的纠偏,比不纠正更危险。


6. 🔮 AI 之腔与人类之舌的循环

论文最后指出一个反馈回路,细思极恐。

AI 生成的文本正在大规模进入互联网——未来训练数据的组成部分。这些文本携带着系统性的风格偏离。下一代模型在这些数据上训练,风格偏离会被嵌入到新的训练分布里。再部署、再生成、再纳入训练数据——每一代都把偏离往更深处推一点。

论文自己的话:"吸收态机制意味着进入未来语料的 AI 生成文本携带着自我强化的风格机制,会在各代模型间复利增长。"

这是比单个模型的风格坍缩更大的问题。这是在问——如果人类的交流环境越来越多地被 AI 重塑,几十年后人类自己的写作风格会变成什么样?


7. 📝 诚实的盲区

我清楚的是

  • 17 个模型 × 24 个特征的交叉矩阵——这个覆盖度给了论文的"普遍性宣言"足够实证支撑。
  • base/instruct 配对检验干净利落——四对模型、全部不显著,这个结论有统计力量。
  • 熵正则化实验有明确的因果结构——同一架构、不同 λ,效果差异干净归因。
  • 控制强度原则是被实验数据撑起来的——λ=1.0 恶化 240%,λ=5.0 改善 40.5%,非线性效应真实存在。

我不清楚的是

  • λ=5.0 的效果能否迁移到大模型? 熵正则化实验全在 Pythia-410M 上进行。在 70B 或更大规模上,同样 λ=5.0 是改善还是灾难?论文自己将此列为开放问题。perplexity 从 48.4 飙到 786.5——这个损失在大模型上是否依然"值得",没人知道。
  • 24 个特征有多完整? 论文用的是正则匹配,强调精确而非召回。这意味着很多更微妙的风格偏差——比如句式复杂性、修辞策略、隐喻密度——被系统性漏掉了。24 个特征可能低估了真实偏离程度,也可能高估(因为它们恰好是被选中的"已知问题特征")。
  • 因果关系验证了吗? 上下文偏移和吸收态的解释是机制假设——与所有观察结果一致,但没有通过激活探针或对照干预做因果验证。这两个概念目前是"最佳解释推理"而非"验证的理论"。
  • 不同语言呢? 所有实验都在英文上完成。中文的 AI 腔调是否遵循同样的机制——哪些特征被放大、哪些被压制、RLHF 是否同样无效——完全未知。
  • 人类感知验证呢? 论文的报告指标是分布距离,不是人类的主观"AI 味"判断。一个偏离基准 0.78 的模型和一个偏离 12.29 的模型,人类读者能在 A/B 测试中区分出来吗?差异的感知尺寸(perceptual effect size)没有被测量。

8. 🏁 腔调不是性格,是缺陷

这篇论文做了一件只有好科学才会做的事:它推翻了一个被广泛接受的叙事。

"AI 说话像 AI 是因为 RLHF 让它学会了讨好人类"——这个解释既合理又方便。合理,是因为 RLHF 确实会压窄输出分布。方便,是因为它把问题归给了一个大家都想改进的训练阶段,让人觉得"在修了"。

但论文用四对模型的配对数据,安静地驳回了这个叙事。AI 腔调不是 RLHF 制造的产品;它是预训练-生成动力学的副产品。对齐训练改变不了它,因为对齐训练作用在一个语言结构已经被重塑完毕的模型上。

论文把这个问题放到了它该在的位置:不是后段训练的问题,是语言生成本身的结构性问题。 这等于说——所有在 RLHF 阶段兜兜转转的"去 AI 味"努力,方向都错了。

但论文也提供了一个方向正确的答案。强熵正则化——在预训练阶段而非微调阶段——可以显著减少偏离。代价是困惑度的上升,换来的是多样性的飞跃。而且这个答案暗示了一条不同寻常的路径:在规模崇拜的时代,一个正确训练的 4 亿参数小模型,可以在风格自然度上打败千亿参数的前沿系统。

训练目标,重于模型尺度。

人类语言正在被拉进一个概率分布的漩涡。这篇论文画出了漩涡的形状,标出了吸力最强的几个点,找到了一个可能的把手——然后诚实地说,把手还不够结实。但至少,我们知道了漩涡在哪。


项目 内容
论文标题 From Context Shift to Stylistic Collapse: Why Training Objectives Matter More Than Scale
作者 Rohan Mahapatra(Independent Researcher)
arXiv ID 2605.28826
分类 cs.CL
核心贡献 (1) 首次系统性量化了 17 个模型在 24 个语言特征上的风格偏离(平均 83% 特征偏离,峰值 209,675%);(2) 通过四对 base/instruct 模型对比证明了 AI 腔调与 RLHF 无统计显著关系(p > 0.25),推翻"RLHF 制造 AI 腔调"的主流叙事;(3) 提出上下文偏移+吸收态的生成动力学机制解释;(4) 发现了控制强度的非线性原则——弱干预恶化偏离(+240%),强干预显著改善(-40.5%);(5) 展示了 410M 小模型经过恰当熵正则化后,在风格自然度上碾压前沿 API(96.7-98.2% 更优)
关键局限 熵正则化实验未在大模型上验证;24 个特征的正则匹配方法可能遗漏微妙偏差(也可能高估问题范围);上下文偏移/吸收态机制为假设性解释而非因果验证;仅测试英文;缺乏人类感知验证(分布距离 vs 主观 AI 味判断的对应关系未知)

参考文献

  1. Mahapatra, "From Context Shift to Stylistic Collapse: Why Training Objectives Matter More Than Scale", arXiv:2605.28826, 2026.
  2. Holtzman et al., "The Curious Case of Neural Text Degeneration", ICLR 2020.
  3. Kirk et al., "Understanding the Effects of RLHF on LLM Generalisation and Diversity", arXiv:2309.02926, 2023.
  4. Mitchell et al., "DetectGPT: Zero-Shot Machine-Generated Text Detection using Probability Curvature", ICML 2023.
  5. Shumailov et al., "AI Models Collapse When Trained on Recursively Generated Data", Nature 631, 2024.

#语言坍缩 #AI风格 #RLHF #熵正则化 #指令微调 #训练目标 #语言多样性 #模型坍塌 #智柴

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录