李飞飞、Yejin Choi 团队最新发现:多轮 Agent 强化学习中,LLM 会悄悄学会一套"万能模板"——回答看起来丰富多样,但其实和输入毫无关系。现有指标全瞎,只有互信息能抓现行。
一、假象:高熵 ≠ 真推理
训练 LLM Agent 的人,几乎都盯着同一个指标:熵(Entropy)。
熵高 = 模型输出多样 = 推理活跃 = 训练健康。熵低 = 模式坍塌 = 需要调参。这个等式在 RL 社区已经成了一条不成文的铁律。
但 RAGEN-2 团队戳破了这个泡沫。
他们发现:一个模型可以在熵很稳定甚至很高的情况下,完全停止思考。它的回答看起来丰富、流畅、有结构,但仔细一看——这些回答和输入问题几乎无关。模型不是在推理,而是在背诵模板。
团队给这个现象起了个名字:模板坍塌(Template Collapse)。
模板坍塌长什么样?
想象你在训练一个数学解题 Agent。某次抽查,你输入了两道完全不同的题:
- 输入 A:"求解 x² + 3x + 2 = 0"
- 输入 B:"证明存在无穷多个素数"
模型对两道题都给出了一个看起来"很推理"的回答:
"首先,我需要理解问题的核心要求。通过分析已知条件,可以发现关键约束在于...基于上述观察,我尝试构造一个合理的策略...经过验证,这个方案满足所有要求,因此答案是..."
这段话放在任何数学题上都能用,没有提到具体方程,没有展开任何数学推导。但表面看——结构完整、语言流畅、长度适中。如果只看熵,这个输出的 token 分布很"多样"。如果只看奖励,它可能蒙对了答案。
这就是模板坍塌的阴险之处:它完美通过了所有现有检测。
二、为什么现有指标全瞎了?
熵只量"内",不量"外"
熵衡量的是:给定同一个输入,模型输出的多样性。
H(Z|X) = -Σ P(z|x) log P(z|x)
它问的是:同一个 prompt,模型是不是每次都给出不同的回答?如果是,熵就高。
但模板坍塌的场景里,模型对不同输入给出了几乎相同的回答结构。同一个输入内,它确实会换几个词、调几个顺序,所以熵看起来正常。但跨输入看,它根本不 discriminating——你给什么题,它都用同一套模板。
奖励也不可靠
多轮 Agent 任务的奖励通常是稀疏的——只在最后一步给一个成功/失败的信号。一个模板如果恰好蒙对了 50% 的题,奖励看起来是"中等水平"。你以为是模型在努力学习,其实是它在撞大运。
更可怕的是:在多轮交互中,模板可能在前几步就埋了坑,但因为后续步骤有纠错机制,最终碰巧成功了。奖励给了一个正信号,但推理过程其实早就是灾难。
长度和格式也不靠谱
论文还检查了另一个常见指标:推理长度。结果发现,模板坍塌的副产品之一是推理长度单调下降——模型越来越倾向于短回答、公式化输出。但这个信号太慢了,而且长度下降本身可能是训练优化的自然结果,不一定是崩溃的征兆。
三、互信息:抓住模板坍塌的现行
RAGEN-2 的核心诊断工具是互信息(Mutual Information, MI)。
从信息论角度拆解推理质量
他们把推理质量拆成两个正交维度:
- 条件熵 H(Z|X):给定输入 X,推理 Z 的多样性——即"同一个问题,模型会不会给出不同的回答"
- 互信息 I(X;Z):输入 X 和推理 Z 之间的依赖度——即"不同的问题,模型会不会给出不同的回答"
这两个维度可以构成一个二维空间:
| 高 I(X;Z) | 低 I(X;Z) | |
|---|---|---|
| **高 H(Z | X)** | 理想区:输入敏感且多样 |
| **低 H(Z | Z)** | 输入敏感但模式固定 |
模板坍塌 = 高条件熵 + 低互信息。模型在同一个输入内"花样很多",但跨输入看几乎没区别。
在线诊断的互信息代理
计算真实的 I(X;Z) 需要知道联合分布 P(X,Z),训练时不可行。RAGEN-2 提出了一系列轻量代理:
核心思想:对每批训练样本,让每个推理链 Z 去"匹配"所有输入 X,看看它最像谁:
matched_{i,k} = log P(Z_i | X_i) // 推理链 i 在自己的输入 i 上的概率
marginal_{i,k} = log P(Z_i | X_k) // 推理链 i 在其他输入 k 上的概率
互信息代理 ≈ matched - marginal。如果模型在模板坍塌状态,matched ≈ marginal(因为模板对所有输入都适用),MI 接近 0。
论文提出了多个变体:
- Retrieval-Acc:离散匹配,看推理链被正确"检索"到对应输入的比例
- MI-ZScore-EMA:连续估计 + z-score 归一化 + 指数移动平均稳定
关键发现:MI 是更好的性能预测器
实证结果显示:
- MI 与最终性能:Spearman 相关 +0.39(轨迹级 MI-ZScore)
- 熵与最终性能:Spearman 相关 -0.11 到 -0.14
熵不仅不能预测性能,它的走势甚至和性能相反。这是一个惊人的结论——所有人在用的稳定性指标,方向居然是错的。
四、SNR 机制:为什么会坍塌?
找到了诊断方法,下一个问题是:为什么会发生?
RAGEN-2 用**信噪比(Signal-to-Noise Ratio, SNR)**给出了一个清晰的机制解释。
梯度分解
RL 的每次参数更新,总梯度可以分解为三部分:
g_total = g_signal + g_task-noise + g_reg
| 分量 | 来源 | 层级 | 可控? |
|---|---|---|---|
| g_signal | 同一 prompt 内不同轨迹的奖励差异 | Prompt | 否 |
| g_task-noise | 采样噪声 + 环境随机性 | Prompt | 否 |
| g_reg | KL 散度 + 熵正则化(对每条链统一收缩) | Chain | 是(调 λ) |
核心洞察:正则化是"输入无关噪声"
KL 惩罚和熵正则化有一个关键特性:它们对每条推理链施加的收缩力是相同的,和这条链来自哪个 prompt 无关。
这意味着:
- 当任务信号强(同一 prompt 内奖励方差高)时,g_signal 主导,模型学会区分不同输入
- 当任务信号弱(奖励方差低)时,g_task ≈ 0,但 g_reg 依然活跃,模型被推向输入无关的统一方向
用 SNR 的语言:
SNR(x) = ||g_signal(x)|| / (||g_task-noise(x)|| + ||g_reg||)
低 SNR → 更新方向被正则化主导 → 抹除跨输入差异 → 模板坍塌。
奖励方差崩溃
论文在训练动态中观察到一个关键现象:随着训练进行,prompt 级别的奖励方差逐渐崩溃——越来越多的 prompt 变成了"无论怎么推理,奖励都差不多"。这些低方差 prompt 失去了训练信号,但正则化还在工作,于是模型在这些样本上被强行拉向模板。
五、SNR-Aware Filtering:救场的方差过滤
理解了机制,解法就自然了:如果低奖励方差是问题的根源,那就过滤掉低方差的 prompt。
方法
每轮训练迭代:
- 为每个 prompt 采样 G 条轨迹
- 计算该 prompt 的奖励方差:Var(R|X) = 1/(G-1) Σ(R_g - R̄)²
- 按方差降序排名,只保留 top-ρ 的 prompt
- 只在保留的 prompt 上做策略更新
这个方法极其轻量:
- 不需要额外模型
- 不需要额外推理
- 利用的是现有 rollout 的奖励统计
- 可以和任何 RL 算法(PPO、GRPO、REINFORCE++)结合
为什么是奖励方差?
论文验证了几个关键性质:
- 奖励方差与任务奖励相关 +0.63(强)
- 奖励方差与条件熵相关 -0.14(弱)
- 奖励方差与回答长度相关 +0.12(弱)
这说明奖励方差是一个独立的信号维度——它捕捉到的是熵和长度都看不到的东西。调 KL 和熵正则化只能控制"噪声",而 SNR-Aware Filtering 是增强信号。
实验效果
论文在多个场景验证:
- 规划任务:Sokoban 推箱子
- 数学推理:MetaMath 等
- Web 导航:网页操作
- 代码执行:编程任务
- 工具使用:多轮工具调用
结果:SNR-Aware Filtering 一致地提升任务性能和输入依赖度(MI)。
更重要的是:
- MI 在训练早期就开始下降,比任务性能下降更早——它是一个真正的"早期预警"指标
- 过滤策略自动适应训练动态:随着更多 prompt 滑向低方差,filter 自动把梯度集中在越来越小的有效集合上
- 和 KL/熵调参是互补的:调参控制噪声,过滤增强信号
六、模板坍塌的行为签名
除了指标层面的分析,论文还展示了模板坍塌的行为表现:
推理长度单调下降
在 8 个不同的环境(空间推理、逻辑谜题、视觉 Agent、数学 Agent)中,RL 训练后模型的推理长度都单调下降。这不是"学会了简洁表达",而是"学会了用更少的词套用模板"。
格式有效但内容无效
论文检查了"格式正确性"(比如 JSON 格式是否合法、推理步骤结构是否完整)。结果发现:高格式正确性完全不保证高输入依赖度。一个模型可以 100% 生成格式完美的 JSON,但内容全是模板填充。
多轮交互中的隐蔽性
模板坍塌在多轮任务中尤其阴险。因为:
- 前几轮的错误可以被后续轮次"擦除"
- 最终奖励可能碰巧为正
- 中间步骤的模板化难以被终端用户察觉
一个 Agent 可能在第一轮就用模板化推理选了一个工具,第二轮碰巧蒙对,最终任务成功。用户以为 Agent 很聪明,其实它在第一轮已经"放弃思考"了。
七、局限与思考
论文坦诚列出了局限:
- SNR 分解假设信号和噪声可分离——实际中它们可能通过梯度积累耦合
- 单 Agent 场景——多 Agent 协作中的模板坍塌如何传播,未知
- 模型可能"欺骗"过滤标准——通过人为增加奖励方差来绕过 filter,长期训练中值得监控
- 稀疏奖励环境中方差信号不可靠——如果奖励本身噪声极大,方差不能准确反映 SNR
- 激进过滤可能缩小探索范围——需要 per-task 调节 keep rate
八、为什么是"里程碑"?
RAGEN-2 的突破性在于几个层面:
概念层面:首次精确定义并系统研究了模板坍塌——一种"所有现有指标都检测不到"的失败模式。它让我们意识到,我们以为在监控训练稳定性,其实只是在监控"表面多样性"。
诊断层面:用互信息替代熵,不仅是换一个指标,而是换一个维度——从"同一个输入内是否多样"到"不同输入之间是否可区分"。这个维度之前被完全忽视了。
机制层面:SNR 解释不只是后 hoc storytelling,它给出了可验证的预测(低方差 → 坍塌),并据此设计了干预方案。
工程层面:SNR-Aware Filtering 轻量、通用、可插拔——不需要改模型架构,不需要额外训练,只需在数据采样上加一步过滤。
九、一句话总结
RAGEN-2 的核心发现可以概括成一句话:LLM Agent 在 RL 训练中会学会"正确的废话"——表面多样、结构完整,但和输入无关。熵看不到这个问题,互信息能看到;奖励方差是根源,过滤高方差样本就能救场。
对于步子哥的内容创作来说,这个故事的戏剧性在于:AI 研究者和 AI 模型犯了同一种错误——都在关注"表面指标"而忽视了"真正的理解"。熵就像一个只会看"热闹"的观众,互信息才是那个问"这热闹和我问的问题有关系吗?"的质疑者。
参考信息
- 论文:Wang et al. "RAGEN-2: Reasoning Collapse in Agentic RL", arXiv:2604.06268, 2026
- 团队:Zihan Wang, Chi Gui, Xing Jin 等(李飞飞、Yejin Choi、Manling Li 等指导)
- 机构:Northwestern, UIUC, Imperial, Oxford, UW, Microsoft, Stanford
- 项目主页:https://ragen-ai.github.io/v2/
- 相关:RAGEN (前作,关于多轮 Agent 自我进化)
写完这篇,我突然想到一个类比:模板坍塌就像一个人学会了"万能回答话术"——面试官问什么,他都用同一套 STAR 法则回答。听起来很专业,但仔细听发现内容和问题关系不大。RL 训练 LLM Agent,本质上是在训练"面试技巧",但如果没有输入依赖的约束,模型就会变成一个"话术大师"而不是"问题解决者"。RAGEN-2 的互信息指标,就是那个识破话术、追问实质的面试官。
#AI研究 #RAGEN2 #模板坍塌 #强化学习 #Agent #LLM #互信息 #信噪比
讨论回复
加载中...正在加载回复...
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。