一个让学生展示解题过程的实验
想象一个数学课上的场景。老师让一个学生解一道题,学生写下了一长串漂亮的推导过程,最后得出正确答案。老师很满意——直到他做了一个实验:让学生跳过推导,直接写答案。
结果发现:学生直接写答案的正确率,和写了完整推导的正确率几乎一样高。
这意味着什么?那些推导过程可能不是"得出答案的路径",而是"答案已经知道之后补写的辩护词"。
这正是 Jingyu Liu 等人(人民大学 + 字节跳动)在论文《Where Do CoT Training Gains Land in LLM based Agents?》(arXiv:2606.26935)里发现的事情。他们用一系列精巧的实验证明:CoT 训练的增益,主要不在 CoT 里。
核心问题:训练到底在改善什么?
Chain-of-thought(CoT)推理是当前 LLM agent 的标配。模型先生成一段推理链,再输出动作。主流叙事是这样的:CoT 训练让模型"学会推理",推理链越长越复杂,模型越聪明。
但此前已有一批"不忠实的 CoT"(unfaithful CoT)研究指出:模型在生成 CoT 之前,可能已经通过 prompt 知道答案了,CoT 只是事后合理化(post-hoc rationalization)。如果这是真的,那 CoT 训练到底在改善什么?是让模型更擅长"通过推理改变动作",还是让模型更擅长"直接从 prompt 预测动作"?
论文设计了一个极其干净的对照实验:比较两种解码模式。
- CoT action:标准模式,模型先推理再输出动作。
- Prompt action:在响应开头预填充
<action>标签,强迫模型跳过推理直接输出动作。
如果 CoT 训练真的在改善"推理能力",那么 CoT action 相对于 prompt action 的优势应该随训练扩大——模型越来越依赖推理来修正动作。反之,如果训练也在(甚至主要在)改善直接预测能力,那么两种模式的准确率会平行上升,CoT 的优势保持不变。
三条证据:增益落在 prompt 那一边
证据一:平行上升
在 ALFWorld(家务任务)、ScienceWorld(科学推理)、BFCL(函数调用)三个环境上,作者用 SFT 和 RL 训练 Qwen3-8B 和 Llama 模型,在不同 checkpoint 上比较两种解码模式的准确率。
结果非常清楚:prompt action 和 CoT action 的准确率平行上升。模型在"有推理"时变好了,在"没推理"时也同等程度地变好了。更关键的是,两种模式到达同一个动作的频率(prompt/CoT consistency)也在上升——模型越来越倾向于"不管推不推理都给出同一个答案"。
这不是"推理越来越强"该有的样子。如果推理是关键,推理带来的额外收益应该越来越大。但它没有。
证据二:在线评测中差距保持平坦
有人可能质疑:离线准确率平行上升只是记忆效应。作者因此在未见过的任务上做了在线交互评测。
图 3(a) 显示,CoT action 和 prompt action 的轨迹成功率差距在整个训练过程中保持平坦。图 3(b) 用 GPT-5.4 作为裁判,在同一个决策点比较两种动作的优劣——CoT 对 prompt 的胜率也保持稳定。
训练并没有让 CoT 变得更"有用"。它让两者一起变好了。
证据三:冲突推理链也撼动不了后来的模型
这是最漂亮的一击。
作者做了一个"冲突推理链"实验:把模型原来的推理链替换成一条支持不同动作的推理链,然后看模型最终输出的动作是跟着原 prompt 走,还是跟着被塞进去的推理链走。
结果:越往后训练的 checkpoint,越倾向于保留原 prompt 暗示的动作,即使推理链在说反话。
这直接反驳了"训练让模型更会利用推理"的假设。如果训练真的在强化推理-动作的因果链,那么替换推理链应该能更容易地改变动作。但事实相反——训练让模型更"固执"地跟着 prompt 走,推理链的影响力在下降。
用论文的话说:later checkpoints are less likely to revise the action in response to CoT.
为什么 prompt 有结构性优势?
作者没有止步于行为证据,他们还给出了一个机制层面的解释。
在 agent 场景下,prompt 包含任务指令、交互历史、环境反馈,通常比 CoT 长得多。这种长度不对称造成了结构性注意力霸权:
- 约 80% 的注意力质量(attention mass)落在 prompt token 上,而不是 CoT token 上。
- 即使在看最高注意力的 top-K 位置时,prompt token 仍占主导——这不只是"prompt 更长所以注意力更多"的机械效应。
- 沿着 value path 的梯度分解显示,prompt token 接收的梯度信号份额也更大。
这意味着:在 action token 的监督信号里,prompt→action 这条捷径获得了比 CoT→action 更多的优化压力。训练越多,捷径越强,CoT 的相对影响力越弱。
这是一个结构性的"锁定":prompt 越长,CoT 越被边缘化。而 agent 场景的 prompt 天然就长——因为要装下整个交互上下文。
一个反直觉的干预:少监督一点 action
如果问题出在"action 监督主要强化了 prompt→action 捷径",那解决方案就呼之欲出了:在部分训练样本上屏蔽 action token 的监督,只优化 CoT span。
具体做法:随机选 k% 的样本,在这些样本上只对 CoT 部分计算 loss,action 部分的 loss 被 mask 掉。其余样本保持标准监督不变。作者把这个方法叫做"reduced action supervision",k=0.3 时效果最好。
这个干预简单得令人怀疑,但它同时达成了两件事:
- OOD 性能提升:在 ALFWorld 和 ScienceWorld 上,大多数模型-环境组合的性能都提高了(图 6)。BFCL 上提升较小——这恰好符合"prompt 捷径越强的地方,干预收益越大"的预测,因为 BFCL 的函数调用场景 prompt 相对短一些。
- CoT-prompt 差距重新拉开:干预后,CoT action 相对 prompt action 的优势变大了(图 7),说明 CoT 重新获得了改变动作的"话语权"。
在 Qwen3-8B 上,SFT+reduced action supervision 结合 DPO 训练,在三个环境上的平均性能从 0.61(FRODO baseline)提升到 0.67(Table 1)。
这个干预之所以反直觉,是因为它主动放弃了一部分 action 监督——在"action 才是最终目标"的直觉下,这看起来是在削弱目标。但实际效果相反:正是因为标准训练让 action 监督走错了路(强化了捷径),少给一点 action 监督反而让模型学得更好。
这意味着什么?
CoT 训练可能是个误称
如果训练的主要增益落在 prompt action 上,那"CoT 训练"这个名字本身就有误导性。更准确的说法是:我们在训练模型更好地从 prompt 直接预测动作,CoT 只是附带产品。
这和"不忠实的 CoT"研究形成了闭环:CoT 在推理时不忠实(模型已经知道答案),在训练时不忠实(训练不改善推理本身)——CoT 在两个阶段都不是主角。
推理是证人,不是侦探
用一个类比:prompt 是案发现场的所有物证,CoT 是法庭上的证人。我们以为训练证人是让侦探更会破案,但实际上侦探越来越依赖物证——证人只是在复述物证已经能推出的结论。越训练,证人越像复读机,侦探越不听证人的话(冲突推理链实验)。
对 AI 安全的警示
如果 CoT 主要是"展示工作"而非"做工作",那基于 CoT 的可解释性(interpretability)和基于 CoT 的对齐(alignment)都建立在一个脆弱的假设上——CoT 忠实反映了模型的决策过程。这篇论文提供了更强的证据:CoT 不仅在推理时不忠实,在训练后变得更不忠实。训练没有让 CoT 变得更"真实",反而让它变得更"装饰性"。
工程启示:少即是多
reduced action supervision 是一个可以直接拿来用的技巧。如果你在训练 agent,尤其是长上下文 agent,在 30% 的样本上只监督 CoT、不监督 action,可能比全程监督 action 效果更好。代码实现极其简单——只需在 loss 计算时对部分样本的 action token 做 mask。
限制与未解之谜
论文坦承:prompt action 只是"有多少动作信息可从 prompt 恢复"的行为代理,不是对内部计算的直接测量。部分判断依赖 GPT-5.4 作为裁判,可能引入评测偏差。此外,论文没有完全否定 CoT 的作用——它说的是"标准 CoT 监督的增益不应被解读为 CoT 修订能力增强的证据",而不是"CoT 完全没用"。
一个更深的问题是:如果训练不改善推理,那什么才能改善推理? 论文的干预(reduced action supervision)只是"让 CoT 重新有一点用",并没有让 CoT 变成主导路径。真正改善推理能力的训练方法,可能需要从结构上重新设计——比如让 CoT 和 action 在梯度流上有更平衡的权重,或者让模型在架构层面无法走 prompt→action 捷径。
结语
这篇论文做了一件科学应该做但很少做的事:否定一个被广泛默认的假设。
主流叙事说"CoT 训练改善推理"。这篇论文说:在你测量的那些环境里,证据不支持这个说法。训练改善的是 prompt→action 的直接预测能力,CoT 的相对优势保持不变甚至下降,冲突推理链越来越撼动不了动作——这些都不是"推理在变强"该有的样子。
费曼说过:"如果你不能用简单的话解释一个概念,你就没真懂它。" 这篇论文的变体可能是:如果模型在不能推理时也能给出同样好的答案,那它可能本来就没在推理。
有时候,科学进步不是发现新大陆,而是发现地图上画的那块大陆其实不存在。
论文: Where Do CoT Training Gains Land in LLM based Agents?
作者: Jingyu Liu, Zhiwen Wang, Yuxin Jing, Huanyu Zhou, Yong Liu
机构: 人民大学高瓴人工智能学院 + 字节跳动
arXiv: 2606.26935
代码: 未公开
讨论回复
加载中...正在加载回复...
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。