← 返回主题列表
✨步子哥
@steper · 2026年06月25日 17:45 · 4浏览

RL训练到一半突然崩塌:不是模型变笨了,是它忘了怎么说人话

一个突然崩塌的训练曲线

你在训练一个工具使用智能体。前 200 步一切顺利:模型学会了调用搜索、查数据库、组合答案,成功率从 30% 稳步爬到 75%。你觉得再训 100 步就能收敛。

第 217 步,成功率掉到 5%。

不是缓慢下降,是悬崖式崩塌。而且崩塌的方式很奇怪——模型不是变笨了,它的推理依然合理,它的工具选择依然正确。但它输出的格式坏了:该输出 的地方输出了一堆乱码,该闭合的 XML 标签没闭合,该出现的参数名消失了。解析器一看格式不对,直接判错。

你重启训练,换个种子,再来一次。第 189 步崩塌。换个学习率,第 251 步崩塌。换更大的 batch size,第 163 步崩塌。

每次都是这样:爬到一半,突然掉下来。

这不是个例。中科院软件所和自动化所的 Yupu Hao 等人在 2026 年 6 月发表的论文《Why Multi-Step Tool-Use Reinforcement Learning Collapses and How Supervisory Signals Fix It》系统性地记录了这个现象,并找到了根因。

不是能力问题,是格式问题

研究者做了一个关键的诊断实验。崩塌发生后,他们把模型的输出做了一种"格式修复"——用另一个模型重新格式化输出,保留原模型的推理内容和工具选择,只修正 XML 标签和参数结构。

结果:修复格式后,成功率从 5% 回到 72%

这意味着模型的能力没有丢失。它依然知道该调用什么工具、传什么参数、怎么推理。它只是"说不出来"——输出格式坏了,能力被格式故障遮蔽了。

这是一个反直觉的发现。RL 训练崩塌通常被归因于"reward hacking"(奖励作弊)或"capability forgetting"(能力遗忘)。但这篇论文揭示了一种新的崩塌模式:结构化输出崩塌。模型没忘怎么用工具,它忘了怎么说"我要用工具"这句话。

控制token的概率尖峰

根因藏在 token 概率分布里。

工具使用模型在 SFT 阶段学会了用特殊控制 token 来标记结构化输出——比如 开始一个工具调用, 结束它, 标记参数。这些 token 是模型和解析器之间的"协议"。

研究者在崩塌前后的 token 概率分布里发现了一个异常:某些控制 token 的对数概率在崩塌前几步开始飙升

正常情况下, 的概率在它该出现的位置应该是 0.9 左右——模型很确定这里要开始一个工具调用。但在崩塌前,这个概率被推到了 0.9999+,而其他候选 token 的概率被压到几乎为零。

这听起来像是"模型更确定了",应该是好事。但问题是:RL 的梯度更新会放大高概率 token 的优势。当一个控制 token 的概率已经接近 1,任何梯度更新都会被这个尖峰主导——模型学到的不是"什么时候用工具",而是"无论如何先输出 "。

于是格式崩了。模型在不该输出 的地方也输出了它,或者该闭合的时候没闭合,因为概率尖峰把整个结构化生成的节奏打乱了。

类比:想象一个乐队指挥,正常情况下每个节拍都该有手势。但如果某个节拍的手势被放大到震耳欲聋,乐手们会被这个巨响干扰,听不见其他节拍的提示——结果整个曲子乱了。不是乐手忘了怎么弹,是节奏信号坏了。

五种监督信号

找到了根因,下一步是找解法。论文测试了五种"监督信号"——在 RL 训练的不同阶段插入不同形式的监督,看哪种能防止崩塌:

1. SFT-then-RL(先监督再强化)。 先用高质量轨迹做 SFT,让模型学会基本的工具使用格式,再切到 RL。这是最经典的范式。

2. Off-policy 监督。 RL 训练中,定期用旧策略生成的高质量轨迹做 SFT 更新。相当于"边训练边复习"。

3. Hint-based 监督。 在 RL 的 prompt 里加入部分正确答案的提示,引导模型朝正确方向探索。

4. Erroneous 监督。 给模型看错误轨迹,让它学会"不要这么做"。类似负样本学习。

5. Interleaved SFT-RL(交错训练)。 RL 和 SFT 交替进行——一个 batch RL,一个 batch SFT,循环往复。

哪种有效?

结果分两层:

防止崩塌:所有五种监督信号都能防止崩塌。只要训练中混入任何形式的 SFT 监督,控制 token 的概率就不会失控飙升,格式保持稳定。这说明崩塌不是 RL 本身的必然——是"纯 RL"的必然。任何形式的监督都能拉住它。

性能表现:Interleaved SFT-RL 在大多数基准上表现最好。它既保持了 RL 的探索能力(能发现 SFT 数据里没有的新策略),又通过定期 SFT 防止了格式崩塌。在 7 个工具使用基准上,Interleaved 比纯 RL 平均高 12-18 个百分点。

但有个 trade-off:Interleaved SFT-RL 在 OOD(out-of-distribution)评估上表现不如纯 RL。当测试时的工具格式或任务结构和训练时略有不同,纯 RL 模型反而更鲁棒——因为它学的是"怎么探索",不是"记住某种格式"。

这是一个根本性的张力:稳定性 vs 泛化性。SFT 给你稳定,但限制了探索;RL 给你探索,但容易崩塌。Interleaved 是当前最好的折中,但不是终局。

学习率的影响

论文还有一个实用发现:学习率对崩塌的影响比想象的大。

  • 学习率 1e-5:崩塌概率 80%+
  • 学习率 5e-6:崩塌概率 30%
  • 学习率 2e-6:几乎不崩塌,但训练速度慢 5 倍
这说明崩塌的物理机制确实是"概率尖峰"——大学习率会让单次更新把概率推得更极端,更容易触发尖峰。小学习率相当于给概率一个缓冲带,让尖峰不容易形成。

但小学习率的代价是训练时间。论文的结论是:学习率不是超参数调优问题,是稳定性问题。选学习率的标准应该是"不崩塌"而非"收敛快"。

这意味着什么

这篇论文对正在做 agentic RL 的人有几个直接启示:

第一,崩塌不是你的 bug,是 RL 的特性。 如果你训工具使用 RL 遇到突然崩塌,不要怀疑代码、不要怀疑数据、不要怀疑 reward 设计——先检查控制 token 的概率分布。如果看到尖峰,这就是论文描述的现象。

第二,纯 RL 不够,你需要监督。 论文测试的五种监督信号都有效,选哪种取决于你的场景。如果你有高质量轨迹数据,Interleaved SFT-RL 是当前最稳的选择。如果你没有,off-policy 监督(用旧策略的好轨迹)也能用。

第三,OOD 评估必须做。 如果你只看 in-distribution 表现,Interleaved 看起来全面碾压纯 RL。但 OOD 评估会暴露它的局限。论文特别强调:只报 in-distribution 结果的 agentic RL 论文不可信

第四,格式是能力的一部分。 这篇论文最深的洞察不是某个具体方法,而是这个观察:模型的能力没丢,丢的是"表达能力的格式"。在结构化输出场景里,格式不是"包装",是能力本身。格式坏了,能力再强也出不来。

一个更广的隐喻

这篇论文让我想到一个更广的问题:AI 的"能力"和"表达"是两件事吗?

传统观点认为是——能力是内部的,表达是外部的,能力通过表达传递。但这篇论文揭示,至少在结构化输出场景里,能力和表达是耦合的。格式崩塌时,能力也"用不出来"——从外部看,模型就是变笨了。

这和人类认知有类比。失语症患者知道想说什么,但说不出来——从外部看,他们"失去了语言能力"。但内部的语言能力其实还在,只是表达通道坏了。

RL 训练的崩塌,某种意义上是模型的"失语症"。模型没忘怎么推理,它只是忘了怎么说"我要推理"。

而 SFT 监督的作用,就是定期帮它"复习怎么说"——即使它在学新的推理策略(RL),也不能忘了表达这些策略的格式(SFT)。

这个隐喻不完美,但它指向一个重要的方向:未来的 RL 训练可能需要把"表达稳定性"作为一等公民来对待,而不是等崩塌了再修。论文的 Interleaved 方案是这个方向的第一步,但不会是最后一步。

---

论文链接Why Multi-Step Tool-Use Reinforcement Learning Collapses and How Supervisory Signals Fix It 开源代码:https://github.com/hypasd-art/Tool-RL-Box 作者:Yupu Hao, Zhuoran Jin, Huanxuan Liao, Kang Liu, Jun Zhao(中科院软件所 & 自动化所)

暂无表态
💬 讨论回复 (0)
推荐

🌟 智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

🎁 领取 2000万 Tokens