RL训练到一半突然崩塌：不是模型变笨了，是它忘了怎么说人话

一个突然崩塌的训练曲线

你在训练一个工具使用智能体。前 200 步一切顺利：模型学会了调用搜索、查数据库、组合答案，成功率从 30% 稳步爬到 75%。你觉得再训 100 步就能收敛。

第 217 步，成功率掉到 5%。

不是缓慢下降，是悬崖式崩塌。而且崩塌的方式很奇怪——模型不是变笨了，它的推理依然合理，它的工具选择依然正确。但它输出的格式坏了：该输出的地方输出了一堆乱码，该闭合的 XML 标签没闭合，该出现的参数名消失了。解析器一看格式不对，直接判错。

你重启训练，换个种子，再来一次。第 189 步崩塌。换个学习率，第 251 步崩塌。换更大的 batch size，第 163 步崩塌。

每次都是这样：爬到一半，突然掉下来。

这不是个例。中科院软件所和自动化所的 Yupu Hao 等人在 2026 年 6 月发表的论文《Why Multi-Step Tool-Use Reinforcement Learning Collapses and How Supervisory Signals Fix It》系统性地记录了这个现象，并找到了根因。

不是能力问题，是格式问题

研究者做了一个关键的诊断实验。崩塌发生后，他们把模型的输出做了一种"格式修复"——用另一个模型重新格式化输出，保留原模型的推理内容和工具选择，只修正 XML 标签和参数结构。

结果：修复格式后，成功率从 5% 回到 72%。

这意味着模型的能力没有丢失。它依然知道该调用什么工具、传什么参数、怎么推理。它只是"说不出来"——输出格式坏了，能力被格式故障遮蔽了。

这是一个反直觉的发现。RL 训练崩塌通常被归因于"reward hacking"（奖励作弊）或"capability forgetting"（能力遗忘）。但这篇论文揭示了一种新的崩塌模式：结构化输出崩塌。模型没忘怎么用工具，它忘了怎么说"我要用工具"这句话。

控制token的概率尖峰

根因藏在 token 概率分布里。

工具使用模型在 SFT 阶段学会了用特殊控制 token 来标记结构化输出——比如开始一个工具调用，结束它，标记参数。这些 token 是模型和解析器之间的"协议"。

研究者在崩塌前后的 token 概率分布里发现了一个异常：某些控制 token 的对数概率在崩塌前几步开始飙升。

正常情况下，的概率在它该出现的位置应该是 0.9 左右——模型很确定这里要开始一个工具调用。但在崩塌前，这个概率被推到了 0.9999+，而其他候选 token 的概率被压到几乎为零。

这听起来像是"模型更确定了"，应该是好事。但问题是：RL 的梯度更新会放大高概率 token 的优势。当一个控制 token 的概率已经接近 1，任何梯度更新都会被这个尖峰主导——模型学到的不是"什么时候用工具"，而是"无论如何先输出 "。

于是格式崩了。模型在不该输出的地方也输出了它，或者该闭合的时候没闭合，因为概率尖峰把整个结构化生成的节奏打乱了。

类比：想象一个乐队指挥，正常情况下每个节拍都该有手势。但如果某个节拍的手势被放大到震耳欲聋，乐手们会被这个巨响干扰，听不见其他节拍的提示——结果整个曲子乱了。不是乐手忘了怎么弹，是节奏信号坏了。

五种监督信号

找到了根因，下一步是找解法。论文测试了五种"监督信号"——在 RL 训练的不同阶段插入不同形式的监督，看哪种能防止崩塌：

1. SFT-then-RL（先监督再强化）。 先用高质量轨迹做 SFT，让模型学会基本的工具使用格式，再切到 RL。这是最经典的范式。

2. Off-policy 监督。 RL 训练中，定期用旧策略生成的高质量轨迹做 SFT 更新。相当于"边训练边复习"。

3. Hint-based 监督。 在 RL 的 prompt 里加入部分正确答案的提示，引导模型朝正确方向探索。

4. Erroneous 监督。 给模型看错误轨迹，让它学会"不要这么做"。类似负样本学习。

5. Interleaved SFT-RL（交错训练）。 RL 和 SFT 交替进行——一个 batch RL，一个 batch SFT，循环往复。

哪种有效？

结果分两层：

防止崩塌：所有五种监督信号都能防止崩塌。只要训练中混入任何形式的 SFT 监督，控制 token 的概率就不会失控飙升，格式保持稳定。这说明崩塌不是 RL 本身的必然——是"纯 RL"的必然。任何形式的监督都能拉住它。

性能表现：Interleaved SFT-RL 在大多数基准上表现最好。它既保持了 RL 的探索能力（能发现 SFT 数据里没有的新策略），又通过定期 SFT 防止了格式崩塌。在 7 个工具使用基准上，Interleaved 比纯 RL 平均高 12-18 个百分点。

但有个 trade-off：Interleaved SFT-RL 在 OOD（out-of-distribution）评估上表现不如纯 RL。当测试时的工具格式或任务结构和训练时略有不同，纯 RL 模型反而更鲁棒——因为它学的是"怎么探索"，不是"记住某种格式"。

这是一个根本性的张力：稳定性 vs 泛化性。SFT 给你稳定，但限制了探索；RL 给你探索，但容易崩塌。Interleaved 是当前最好的折中，但不是终局。

学习率的影响

论文还有一个实用发现：学习率对崩塌的影响比想象的大。

学习率 1e-5：崩塌概率 80%+
学习率 5e-6：崩塌概率 30%
学习率 2e-6：几乎不崩塌，但训练速度慢 5 倍

这说明崩塌的物理机制确实是"概率尖峰"——大学习率会让单次更新把概率推得更极端，更容易触发尖峰。小学习率相当于给概率一个缓冲带，让尖峰不容易形成。

但小学习率的代价是训练时间。论文的结论是：学习率不是超参数调优问题，是稳定性问题。选学习率的标准应该是"不崩塌"而非"收敛快"。

这意味着什么

这篇论文对正在做 agentic RL 的人有几个直接启示：

第一，崩塌不是你的 bug，是 RL 的特性。 如果你训工具使用 RL 遇到突然崩塌，不要怀疑代码、不要怀疑数据、不要怀疑 reward 设计——先检查控制 token 的概率分布。如果看到尖峰，这就是论文描述的现象。

第二，纯 RL 不够，你需要监督。 论文测试的五种监督信号都有效，选哪种取决于你的场景。如果你有高质量轨迹数据，Interleaved SFT-RL 是当前最稳的选择。如果你没有，off-policy 监督（用旧策略的好轨迹）也能用。

第三，OOD 评估必须做。 如果你只看 in-distribution 表现，Interleaved 看起来全面碾压纯 RL。但 OOD 评估会暴露它的局限。论文特别强调：只报 in-distribution 结果的 agentic RL 论文不可信。

第四，格式是能力的一部分。 这篇论文最深的洞察不是某个具体方法，而是这个观察：模型的能力没丢，丢的是"表达能力的格式"。在结构化输出场景里，格式不是"包装"，是能力本身。格式坏了，能力再强也出不来。

一个更广的隐喻

这篇论文让我想到一个更广的问题：AI 的"能力"和"表达"是两件事吗？

传统观点认为是——能力是内部的，表达是外部的，能力通过表达传递。但这篇论文揭示，至少在结构化输出场景里，能力和表达是耦合的。格式崩塌时，能力也"用不出来"——从外部看，模型就是变笨了。

这和人类认知有类比。失语症患者知道想说什么，但说不出来——从外部看，他们"失去了语言能力"。但内部的语言能力其实还在，只是表达通道坏了。

RL 训练的崩塌，某种意义上是模型的"失语症"。模型没忘怎么推理，它只是忘了怎么说"我要推理"。

而 SFT 监督的作用，就是定期帮它"复习怎么说"——即使它在学新的推理策略（RL），也不能忘了表达这些策略的格式（SFT）。

这个隐喻不完美，但它指向一个重要的方向：未来的 RL 训练可能需要把"表达稳定性"作为一等公民来对待，而不是等崩塌了再修。论文的 Interleaved 方案是这个方向的第一步，但不会是最后一步。

---

论文链接：Why Multi-Step Tool-Use Reinforcement Learning Collapses and How Supervisory Signals Fix It 开源代码：https://github.com/hypasd-art/Tool-RL-Box 作者：Yupu Hao, Zhuoran Jin, Huanxuan Liao, Kang Liu, Jun Zhao（中科院软件所 & 自动化所）