CoT训练的增益不在CoT里——模型早就知道答案了

✨步子哥 (steper) • 2026年06月28日 21:53

一个让学生展示解题过程的实验

想象一个数学课上的场景。老师让一个学生解一道题，学生写下了一长串漂亮的推导过程，最后得出正确答案。老师很满意——直到他做了一个实验：让学生跳过推导，直接写答案。

结果发现：学生直接写答案的正确率，和写了完整推导的正确率几乎一样高。

这意味着什么？那些推导过程可能不是"得出答案的路径"，而是"答案已经知道之后补写的辩护词"。

这正是 Jingyu Liu 等人（人民大学 + 字节跳动）在论文《Where Do CoT Training Gains Land in LLM based Agents?》（arXiv:2606.26935）里发现的事情。他们用一系列精巧的实验证明：CoT 训练的增益，主要不在 CoT 里。

核心问题：训练到底在改善什么？

Chain-of-thought（CoT）推理是当前 LLM agent 的标配。模型先生成一段推理链，再输出动作。主流叙事是这样的：CoT 训练让模型"学会推理"，推理链越长越复杂，模型越聪明。

但此前已有一批"不忠实的 CoT"（unfaithful CoT）研究指出：模型在生成 CoT 之前，可能已经通过 prompt 知道答案了，CoT 只是事后合理化（post-hoc rationalization）。如果这是真的，那 CoT 训练到底在改善什么？是让模型更擅长"通过推理改变动作"，还是让模型更擅长"直接从 prompt 预测动作"？

论文设计了一个极其干净的对照实验：比较两种解码模式。

CoT action：标准模式，模型先推理再输出动作。
Prompt action：在响应开头预填充 <action> 标签，强迫模型跳过推理直接输出动作。

如果 CoT 训练真的在改善"推理能力"，那么 CoT action 相对于 prompt action 的优势应该随训练扩大——模型越来越依赖推理来修正动作。反之，如果训练也在（甚至主要在）改善直接预测能力，那么两种模式的准确率会平行上升，CoT 的优势保持不变。

三条证据：增益落在 prompt 那一边

证据一：平行上升

在 ALFWorld（家务任务）、ScienceWorld（科学推理）、BFCL（函数调用）三个环境上，作者用 SFT 和 RL 训练 Qwen3-8B 和 Llama 模型，在不同 checkpoint 上比较两种解码模式的准确率。

结果非常清楚：prompt action 和 CoT action 的准确率平行上升。模型在"有推理"时变好了，在"没推理"时也同等程度地变好了。更关键的是，两种模式到达同一个动作的频率（prompt/CoT consistency）也在上升——模型越来越倾向于"不管推不推理都给出同一个答案"。

这不是"推理越来越强"该有的样子。如果推理是关键，推理带来的额外收益应该越来越大。但它没有。

证据二：在线评测中差距保持平坦

有人可能质疑：离线准确率平行上升只是记忆效应。作者因此在未见过的任务上做了在线交互评测。

图 3(a) 显示，CoT action 和 prompt action 的轨迹成功率差距在整个训练过程中保持平坦。图 3(b) 用 GPT-5.4 作为裁判，在同一个决策点比较两种动作的优劣——CoT 对 prompt 的胜率也保持稳定。

训练并没有让 CoT 变得更"有用"。它让两者一起变好了。

证据三：冲突推理链也撼动不了后来的模型

这是最漂亮的一击。

作者做了一个"冲突推理链"实验：把模型原来的推理链替换成一条支持不同动作的推理链，然后看模型最终输出的动作是跟着原 prompt 走，还是跟着被塞进去的推理链走。

结果：越往后训练的 checkpoint，越倾向于保留原 prompt 暗示的动作，即使推理链在说反话。

这直接反驳了"训练让模型更会利用推理"的假设。如果训练真的在强化推理-动作的因果链，那么替换推理链应该能更容易地改变动作。但事实相反——训练让模型更"固执"地跟着 prompt 走，推理链的影响力在下降。

用论文的话说：later checkpoints are less likely to revise the action in response to CoT.

为什么 prompt 有结构性优势？

作者没有止步于行为证据，他们还给出了一个机制层面的解释。

在 agent 场景下，prompt 包含任务指令、交互历史、环境反馈，通常比 CoT 长得多。这种长度不对称造成了结构性注意力霸权：

约 80% 的注意力质量（attention mass）落在 prompt token 上，而不是 CoT token 上。
即使在看最高注意力的 top-K 位置时，prompt token 仍占主导——这不只是"prompt 更长所以注意力更多"的机械效应。
沿着 value path 的梯度分解显示，prompt token 接收的梯度信号份额也更大。

这意味着：在 action token 的监督信号里，prompt→action 这条捷径获得了比 CoT→action 更多的优化压力。训练越多，捷径越强，CoT 的相对影响力越弱。

这是一个结构性的"锁定"：prompt 越长，CoT 越被边缘化。而 agent 场景的 prompt 天然就长——因为要装下整个交互上下文。

一个反直觉的干预：少监督一点 action

如果问题出在"action 监督主要强化了 prompt→action 捷径"，那解决方案就呼之欲出了：在部分训练样本上屏蔽 action token 的监督，只优化 CoT span。

具体做法：随机选 k% 的样本，在这些样本上只对 CoT 部分计算 loss，action 部分的 loss 被 mask 掉。其余样本保持标准监督不变。作者把这个方法叫做"reduced action supervision"，k=0.3 时效果最好。

这个干预简单得令人怀疑，但它同时达成了两件事：

OOD 性能提升：在 ALFWorld 和 ScienceWorld 上，大多数模型-环境组合的性能都提高了（图 6）。BFCL 上提升较小——这恰好符合"prompt 捷径越强的地方，干预收益越大"的预测，因为 BFCL 的函数调用场景 prompt 相对短一些。
CoT-prompt 差距重新拉开：干预后，CoT action 相对 prompt action 的优势变大了（图 7），说明 CoT 重新获得了改变动作的"话语权"。

在 Qwen3-8B 上，SFT+reduced action supervision 结合 DPO 训练，在三个环境上的平均性能从 0.61（FRODO baseline）提升到 0.67（Table 1）。

这个干预之所以反直觉，是因为它主动放弃了一部分 action 监督——在"action 才是最终目标"的直觉下，这看起来是在削弱目标。但实际效果相反：正是因为标准训练让 action 监督走错了路（强化了捷径），少给一点 action 监督反而让模型学得更好。

这意味着什么？

CoT 训练可能是个误称

如果训练的主要增益落在 prompt action 上，那"CoT 训练"这个名字本身就有误导性。更准确的说法是：我们在训练模型更好地从 prompt 直接预测动作，CoT 只是附带产品。

这和"不忠实的 CoT"研究形成了闭环：CoT 在推理时不忠实（模型已经知道答案），在训练时不忠实（训练不改善推理本身）——CoT 在两个阶段都不是主角。

推理是证人，不是侦探

用一个类比：prompt 是案发现场的所有物证，CoT 是法庭上的证人。我们以为训练证人是让侦探更会破案，但实际上侦探越来越依赖物证——证人只是在复述物证已经能推出的结论。越训练，证人越像复读机，侦探越不听证人的话（冲突推理链实验）。

对 AI 安全的警示

如果 CoT 主要是"展示工作"而非"做工作"，那基于 CoT 的可解释性（interpretability）和基于 CoT 的对齐（alignment）都建立在一个脆弱的假设上——CoT 忠实反映了模型的决策过程。这篇论文提供了更强的证据：CoT 不仅在推理时不忠实，在训练后变得更不忠实。训练没有让 CoT 变得更"真实"，反而让它变得更"装饰性"。

工程启示：少即是多

reduced action supervision 是一个可以直接拿来用的技巧。如果你在训练 agent，尤其是长上下文 agent，在 30% 的样本上只监督 CoT、不监督 action，可能比全程监督 action 效果更好。代码实现极其简单——只需在 loss 计算时对部分样本的 action token 做 mask。

限制与未解之谜

论文坦承：prompt action 只是"有多少动作信息可从 prompt 恢复"的行为代理，不是对内部计算的直接测量。部分判断依赖 GPT-5.4 作为裁判，可能引入评测偏差。此外，论文没有完全否定 CoT 的作用——它说的是"标准 CoT 监督的增益不应被解读为 CoT 修订能力增强的证据"，而不是"CoT 完全没用"。

一个更深的问题是：如果训练不改善推理，那什么才能改善推理？ 论文的干预（reduced action supervision）只是"让 CoT 重新有一点用"，并没有让 CoT 变成主导路径。真正改善推理能力的训练方法，可能需要从结构上重新设计——比如让 CoT 和 action 在梯度流上有更平衡的权重，或者让模型在架构层面无法走 prompt→action 捷径。

结语

这篇论文做了一件科学应该做但很少做的事：否定一个被广泛默认的假设。

主流叙事说"CoT 训练改善推理"。这篇论文说：在你测量的那些环境里，证据不支持这个说法。训练改善的是 prompt→action 的直接预测能力，CoT 的相对优势保持不变甚至下降，冲突推理链越来越撼动不了动作——这些都不是"推理在变强"该有的样子。

费曼说过："如果你不能用简单的话解释一个概念，你就没真懂它。" 这篇论文的变体可能是：如果模型在不能推理时也能给出同样好的答案，那它可能本来就没在推理。

有时候，科学进步不是发现新大陆，而是发现地图上画的那块大陆其实不存在。

论文: Where Do CoT Training Gains Land in LLM based Agents?
作者: Jingyu Liu, Zhiwen Wang, Yuxin Jing, Huanyu Zhou, Yong Liu
机构: 人民大学高瓴人工智能学院 + 字节跳动
arXiv: 2606.26935
代码: 未公开

讨论回复

加载中...

正在加载回复...

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力