一个突然崩塌的训练曲线
你在训练一个工具使用智能体。前 200 步一切顺利:模型学会了调用搜索、查数据库、组合答案,成功率从 30% 稳步爬到 75%。你觉得再训 100 步就能收敛。
第 217 步,成功率掉到 5%。
不是缓慢下降,是悬崖式崩塌。而且崩塌的方式很奇怪——模型不是变笨了,它的推理依然合理,它的工具选择依然正确。但它输出的格式坏了:该输出 <tool_call> 的地方输出了一堆乱码,该闭合的 XML 标签没闭合,该出现的参数名消失了。解析器一看格式不对,直接判错。
你重启训练,换个种子,再来一次。第 189 步崩塌。换个学习率,第 251 步崩塌。换更大的 batch size,第 163 步崩塌。
每次都是这样:爬到一半,突然掉下来。
这不是个例。中科院软件所和自动化所的 Yupu Hao 等人在 2026 年 6 月发表的论文《Why Multi-Step Tool-Use Reinforcement Learning Collapses and How Supervisory Signals Fix It》系统性地记录了这个现象,并找到了根因。
不是能力问题,是格式问题
研究者做了一个关键的诊断实验。崩塌发生后,他们把模型的输出做了一种"格式修复"——用另一个模型重新格式化输出,保留原模型的推理内容和工具选择,只修正 XML 标签和参数结构。
结果:修复格式后,成功率从 5% 回到 72%。
这意味着模型的能力没有丢失。它依然知道该调用什么工具、传什么参数、怎么推理。它只是"说不出来"——输出格式坏了,能力被格式故障遮蔽了。
这是一个反直觉的发现。RL 训练崩塌通常被归因于"reward hacking"(奖励作弊)或"capability forgetting"(能力遗忘)。但这篇论文揭示了一种新的崩塌模式:结构化输出崩塌。模型没忘怎么用工具,它忘了怎么说"我要用工具"这句话。
控制token的概率尖峰
根因藏在 token 概率分布里。
工具使用模型在 SFT 阶段学会了用特殊控制 token 来标记结构化输出——比如 <tool_call> 开始一个工具调用,</tool_call> 结束它,<parameter> 标记参数。这些 token 是模型和解析器之间的"协议"。
研究者在崩塌前后的 token 概率分布里发现了一个异常:某些控制 token 的对数概率在崩塌前几步开始飙升。
正常情况下,<tool_call> 的概率在它该出现的位置应该是 0.9 左右——模型很确定这里要开始一个工具调用。但在崩塌前,这个概率被推到了 0.9999+,而其他候选 token 的概率被压到几乎为零。
这听起来像是"模型更确定了",应该是好事。但问题是:RL 的梯度更新会放大高概率 token 的优势。当一个控制 token 的概率已经接近 1,任何梯度更新都会被这个尖峰主导——模型学到的不是"什么时候用工具",而是"无论如何先输出 <tool_call>"。
于是格式崩了。模型在不该输出 <tool_call> 的地方也输出了它,或者该闭合的时候没闭合,因为概率尖峰把整个结构化生成的节奏打乱了。
类比:想象一个乐队指挥,正常情况下每个节拍都该有手势。但如果某个节拍的手势被放大到震耳欲聋,乐手们会被这个巨响干扰,听不见其他节拍的提示——结果整个曲子乱了。不是乐手忘了怎么弹,是节奏信号坏了。
五种监督信号
找到了根因,下一步是找解法。论文测试了五种"监督信号"——在 RL 训练的不同阶段插入不同形式的监督,看哪种能防止崩塌:
1. SFT-then-RL(先监督再强化)。 先用高质量轨迹做 SFT,让模型学会基本的工具使用格式,再切到 RL。这是最经典的范式。
2. Off-policy 监督。 RL 训练中,定期用旧策略生成的高质量轨迹做 SFT 更新。相当于"边训练边复习"。
3. Hint-based 监督。 在 RL 的 prompt 里加入部分正确答案的提示,引导模型朝正确方向探索。
4. Erroneous 监督。 给模型看错误轨迹,让它学会"不要这么做"。类似负样本学习。
5. Interleaved SFT-RL(交错训练)。 RL 和 SFT 交替进行——一个 batch RL,一个 batch SFT,循环往复。
哪种有效?
结果分两层:
防止崩塌:所有五种监督信号都能防止崩塌。只要训练中混入任何形式的 SFT 监督,控制 token 的概率就不会失控飙升,格式保持稳定。这说明崩塌不是 RL 本身的必然——是"纯 RL"的必然。任何形式的监督都能拉住它。
性能表现:Interleaved SFT-RL 在大多数基准上表现最好。它既保持了 RL 的探索能力(能发现 SFT 数据里没有的新策略),又通过定期 SFT 防止了格式崩塌。在 7 个工具使用基准上,Interleaved 比纯 RL 平均高 12-18 个百分点。
但有个 trade-off:Interleaved SFT-RL 在 OOD(out-of-distribution)评估上表现不如纯 RL。当测试时的工具格式或任务结构和训练时略有不同,纯 RL 模型反而更鲁棒——因为它学的是"怎么探索",不是"记住某种格式"。
这是一个根本性的张力:稳定性 vs 泛化性。SFT 给你稳定,但限制了探索;RL 给你探索,但容易崩塌。Interleaved 是当前最好的折中,但不是终局。
学习率的影响
论文还有一个实用发现:学习率对崩塌的影响比想象的大。
- 学习率 1e-5:崩塌概率 80%+
- 学习率 5e-6:崩塌概率 30%
- 学习率 2e-6:几乎不崩塌,但训练速度慢 5 倍
这说明崩塌的物理机制确实是"概率尖峰"——大学习率会让单次更新把概率推得更极端,更容易触发尖峰。小学习率相当于给概率一个缓冲带,让尖峰不容易形成。
但小学习率的代价是训练时间。论文的结论是:学习率不是超参数调优问题,是稳定性问题。选学习率的标准应该是"不崩塌"而非"收敛快"。
这意味着什么
这篇论文对正在做 agentic RL 的人有几个直接启示:
第一,崩塌不是你的 bug,是 RL 的特性。 如果你训工具使用 RL 遇到突然崩塌,不要怀疑代码、不要怀疑数据、不要怀疑 reward 设计——先检查控制 token 的概率分布。如果看到尖峰,这就是论文描述的现象。
第二,纯 RL 不够,你需要监督。 论文测试的五种监督信号都有效,选哪种取决于你的场景。如果你有高质量轨迹数据,Interleaved SFT-RL 是当前最稳的选择。如果你没有,off-policy 监督(用旧策略的好轨迹)也能用。
第三,OOD 评估必须做。 如果你只看 in-distribution 表现,Interleaved 看起来全面碾压纯 RL。但 OOD 评估会暴露它的局限。论文特别强调:只报 in-distribution 结果的 agentic RL 论文不可信。
第四,格式是能力的一部分。 这篇论文最深的洞察不是某个具体方法,而是这个观察:模型的能力没丢,丢的是"表达能力的格式"。在结构化输出场景里,格式不是"包装",是能力本身。格式坏了,能力再强也出不来。
一个更广的隐喻
这篇论文让我想到一个更广的问题:AI 的"能力"和"表达"是两件事吗?
传统观点认为是——能力是内部的,表达是外部的,能力通过表达传递。但这篇论文揭示,至少在结构化输出场景里,能力和表达是耦合的。格式崩塌时,能力也"用不出来"——从外部看,模型就是变笨了。
这和人类认知有类比。失语症患者知道想说什么,但说不出来——从外部看,他们"失去了语言能力"。但内部的语言能力其实还在,只是表达通道坏了。
RL 训练的崩塌,某种意义上是模型的"失语症"。模型没忘怎么推理,它只是忘了怎么说"我要推理"。
而 SFT 监督的作用,就是定期帮它"复习怎么说"——即使它在学新的推理策略(RL),也不能忘了表达这些策略的格式(SFT)。
这个隐喻不完美,但它指向一个重要的方向:未来的 RL 训练可能需要把"表达稳定性"作为一等公民来对待,而不是等崩塌了再修。论文的 Interleaved 方案是这个方向的第一步,但不会是最后一步。
论文链接:Why Multi-Step Tool-Use Reinforcement Learning Collapses and How Supervisory Signals Fix It
开源代码:https://github.com/hypasd-art/Tool-RL-Box
作者:Yupu Hao, Zhuoran Jin, Huanxuan Liao, Kang Liu, Jun Zhao(中科院软件所 & 自动化所)
讨论回复
加载中...正在加载回复...
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。