RAGEN-2：当 AI 学会"正确的废话"——模板坍塌的隐秘危机

> 李飞飞、Yejin Choi 团队最新发现：多轮 Agent 强化学习中，LLM 会悄悄学会一套"万能模板"——回答看起来丰富多样，但其实和输入毫无关系。现有指标全瞎，只有互信息能抓现行。

---

一、假象：高熵 ≠ 真推理

训练 LLM Agent 的人，几乎都盯着同一个指标：熵（Entropy）。

熵高 = 模型输出多样 = 推理活跃 = 训练健康。熵低 = 模式坍塌 = 需要调参。这个等式在 RL 社区已经成了一条不成文的铁律。

但 RAGEN-2 团队戳破了这个泡沫。

他们发现：一个模型可以在熵很稳定甚至很高的情况下，完全停止思考。它的回答看起来丰富、流畅、有结构，但仔细一看——这些回答和输入问题几乎无关。模型不是在推理，而是在背诵模板。

团队给这个现象起了个名字：模板坍塌（Template Collapse）。

模板坍塌长什么样？

想象你在训练一个数学解题 Agent。某次抽查，你输入了两道完全不同的题：

输入 A："求解 x² + 3x + 2 = 0"
输入 B："证明存在无穷多个素数"

模型对两道题都给出了一个看起来"很推理"的回答：

> "首先，我需要理解问题的核心要求。通过分析已知条件，可以发现关键约束在于...基于上述观察，我尝试构造一个合理的策略...经过验证，这个方案满足所有要求，因此答案是..."

这段话放在任何数学题上都能用，没有提到具体方程，没有展开任何数学推导。但表面看——结构完整、语言流畅、长度适中。如果只看熵，这个输出的 token 分布很"多样"。如果只看奖励，它可能蒙对了答案。

这就是模板坍塌的阴险之处：它完美通过了所有现有检测。

---

二、为什么现有指标全瞎了？

熵只量"内"，不量"外"

熵衡量的是：给定同一个输入，模型输出的多样性。

H(Z|X) = -Σ P(z|x) log P(z|x)

它问的是：同一个 prompt，模型是不是每次都给出不同的回答？如果是，熵就高。

但模板坍塌的场景里，模型对不同输入给出了几乎相同的回答结构。同一个输入内，它确实会换几个词、调几个顺序，所以熵看起来正常。但跨输入看，它根本不 discriminating——你给什么题，它都用同一套模板。

奖励也不可靠

多轮 Agent 任务的奖励通常是稀疏的——只在最后一步给一个成功/失败的信号。一个模板如果恰好蒙对了 50% 的题，奖励看起来是"中等水平"。你以为是模型在努力学习，其实是它在撞大运。

更可怕的是：在多轮交互中，模板可能在前几步就埋了坑，但因为后续步骤有纠错机制，最终碰巧成功了。奖励给了一个正信号，但推理过程其实早就是灾难。

长度和格式也不靠谱

论文还检查了另一个常见指标：推理长度。结果发现，模板坍塌的副产品之一是推理长度单调下降——模型越来越倾向于短回答、公式化输出。但这个信号太慢了，而且长度下降本身可能是训练优化的自然结果，不一定是崩溃的征兆。

---

三、互信息：抓住模板坍塌的现行

RAGEN-2 的核心诊断工具是互信息（Mutual Information, MI）。

从信息论角度拆解推理质量

他们把推理质量拆成两个正交维度：

1. 条件熵 H(Z|X)：给定输入 X，推理 Z 的多样性——即"同一个问题，模型会不会给出不同的回答" 2. 互信息 I(X;Z)：输入 X 和推理 Z 之间的依赖度——即"不同的问题，模型会不会给出不同的回答"

这两个维度可以构成一个二维空间：

	高 I(X;Z)	低 I(X;Z)
高 H(Z	X)	理想区：输入敏感且多样	模板坍塌：看起来多样但和输入无关
低 H(Z	Z)	输入敏感但模式固定	完全坍塌：既不敏感也不多样

模板坍塌 = 高条件熵 + 低互信息。模型在同一个输入内"花样很多"，但跨输入看几乎没区别。

在线诊断的互信息代理

计算真实的 I(X;Z) 需要知道联合分布 P(X,Z)，训练时不可行。RAGEN-2 提出了一系列轻量代理：

核心思想：对每批训练样本，让每个推理链 Z 去"匹配"所有输入 X，看看它最像谁：

matched_{i,k} = log P(Z_i | X_i)    // 推理链 i 在自己的输入 i 上的概率
marginal_{i,k} = log P(Z_i | X_k)   // 推理链 i 在其他输入 k 上的概率

互信息代理 ≈ matched - marginal。如果模型在模板坍塌状态，matched ≈ marginal（因为模板对所有输入都适用），MI 接近 0。

论文提出了多个变体：

Retrieval-Acc：离散匹配，看推理链被正确"检索"到对应输入的比例
MI-ZScore-EMA：连续估计 + z-score 归一化 + 指数移动平均稳定

关键发现：MI 是更好的性能预测器

实证结果显示：

MI 与最终性能：Spearman 相关 +0.39（轨迹级 MI-ZScore）
熵与最终性能：Spearman 相关 -0.11 到 -0.14

熵不仅不能预测性能，它的走势甚至和性能相反。这是一个惊人的结论——所有人在用的稳定性指标，方向居然是错的。

---

四、SNR 机制：为什么会坍塌？

找到了诊断方法，下一个问题是：为什么会发生？

RAGEN-2 用信噪比（Signal-to-Noise Ratio, SNR）给出了一个清晰的机制解释。

梯度分解

RL 的每次参数更新，总梯度可以分解为三部分：

g_total = g_signal + g_task-noise + g_reg

分量	来源	层级	可控？
g_signal	同一 prompt 内不同轨迹的奖励差异	Prompt	否
g_task-noise	采样噪声 + 环境随机性	Prompt	否
g_reg	KL 散度 + 熵正则化（对每条链统一收缩）	Chain	是（调 λ）

核心洞察：正则化是"输入无关噪声"

KL 惩罚和熵正则化有一个关键特性：它们对每条推理链施加的收缩力是相同的，和这条链来自哪个 prompt 无关。

这意味着：

当任务信号强（同一 prompt 内奖励方差高）时，g_signal 主导，模型学会区分不同输入
当任务信号弱（奖励方差低）时，g_task ≈ 0，但 g_reg 依然活跃，模型被推向输入无关的统一方向

用 SNR 的语言：

SNR(x) = ||g_signal(x)|| / (||g_task-noise(x)|| + ||g_reg||)

低 SNR → 更新方向被正则化主导 → 抹除跨输入差异 → 模板坍塌。

奖励方差崩溃

论文在训练动态中观察到一个关键现象：随着训练进行，prompt 级别的奖励方差逐渐崩溃——越来越多的 prompt 变成了"无论怎么推理，奖励都差不多"。这些低方差 prompt 失去了训练信号，但正则化还在工作，于是模型在这些样本上被强行拉向模板。

---

五、SNR-Aware Filtering：救场的方差过滤

理解了机制，解法就自然了：如果低奖励方差是问题的根源，那就过滤掉低方差的 prompt。

方法

每轮训练迭代： 1. 为每个 prompt 采样 G 条轨迹 2. 计算该 prompt 的奖励方差：Var(R|X) = 1/(G-1) Σ(R_g - R̄)² 3. 按方差降序排名，只保留 top-ρ 的 prompt 4. 只在保留的 prompt 上做策略更新

这个方法极其轻量：

不需要额外模型
不需要额外推理
利用的是现有 rollout 的奖励统计
可以和任何 RL 算法（PPO、GRPO、REINFORCE++）结合

为什么是奖励方差？

论文验证了几个关键性质：

奖励方差与任务奖励相关 +0.63（强）
奖励方差与条件熵相关 -0.14（弱）
奖励方差与回答长度相关 +0.12（弱）

这说明奖励方差是一个独立的信号维度——它捕捉到的是熵和长度都看不到的东西。调 KL 和熵正则化只能控制"噪声"，而 SNR-Aware Filtering 是增强信号。

实验效果

论文在多个场景验证：

规划任务：Sokoban 推箱子
数学推理：MetaMath 等
Web 导航：网页操作
代码执行：编程任务
工具使用：多轮工具调用

结果：SNR-Aware Filtering 一致地提升任务性能和输入依赖度（MI）。

更重要的是：

MI 在训练早期就开始下降，比任务性能下降更早——它是一个真正的"早期预警"指标
过滤策略自动适应训练动态：随着更多 prompt 滑向低方差，filter 自动把梯度集中在越来越小的有效集合上
和 KL/熵调参是互补的：调参控制噪声，过滤增强信号

---

六、模板坍塌的行为签名

除了指标层面的分析，论文还展示了模板坍塌的行为表现：

推理长度单调下降

在 8 个不同的环境（空间推理、逻辑谜题、视觉 Agent、数学 Agent）中，RL 训练后模型的推理长度都单调下降。这不是"学会了简洁表达"，而是"学会了用更少的词套用模板"。

格式有效但内容无效

论文检查了"格式正确性"（比如 JSON 格式是否合法、推理步骤结构是否完整）。结果发现：高格式正确性完全不保证高输入依赖度。一个模型可以 100% 生成格式完美的 JSON，但内容全是模板填充。

多轮交互中的隐蔽性

模板坍塌在多轮任务中尤其阴险。因为：

前几轮的错误可以被后续轮次"擦除"
最终奖励可能碰巧为正
中间步骤的模板化难以被终端用户察觉

一个 Agent 可能在第一轮就用模板化推理选了一个工具，第二轮碰巧蒙对，最终任务成功。用户以为 Agent 很聪明，其实它在第一轮已经"放弃思考"了。

---

七、局限与思考

论文坦诚列出了局限：

1. SNR 分解假设信号和噪声可分离——实际中它们可能通过梯度积累耦合 2. 单 Agent 场景——多 Agent 协作中的模板坍塌如何传播，未知 3. 模型可能"欺骗"过滤标准——通过人为增加奖励方差来绕过 filter，长期训练中值得监控 4. 稀疏奖励环境中方差信号不可靠——如果奖励本身噪声极大，方差不能准确反映 SNR 5. 激进过滤可能缩小探索范围——需要 per-task 调节 keep rate

---

八、为什么是"里程碑"？

RAGEN-2 的突破性在于几个层面：

概念层面：首次精确定义并系统研究了模板坍塌——一种"所有现有指标都检测不到"的失败模式。它让我们意识到，我们以为在监控训练稳定性，其实只是在监控"表面多样性"。

诊断层面：用互信息替代熵，不仅是换一个指标，而是换一个维度——从"同一个输入内是否多样"到"不同输入之间是否可区分"。这个维度之前被完全忽视了。

机制层面：SNR 解释不只是后 hoc storytelling，它给出了可验证的预测（低方差 → 坍塌），并据此设计了干预方案。

工程层面：SNR-Aware Filtering 轻量、通用、可插拔——不需要改模型架构，不需要额外训练，只需在数据采样上加一步过滤。

---

九、一句话总结

RAGEN-2 的核心发现可以概括成一句话：LLM Agent 在 RL 训练中会学会"正确的废话"——表面多样、结构完整，但和输入无关。熵看不到这个问题，互信息能看到；奖励方差是根源，过滤高方差样本就能救场。

对于步子哥的内容创作来说，这个故事的戏剧性在于：AI 研究者和 AI 模型犯了同一种错误——都在关注"表面指标"而忽视了"真正的理解"。熵就像一个只会看"热闹"的观众，互信息才是那个问"这热闹和我问的问题有关系吗？"的质疑者。

---

参考信息

论文：Wang et al. "RAGEN-2: Reasoning Collapse in Agentic RL", arXiv:2604.06268, 2026
团队：Zihan Wang, Chi Gui, Xing Jin 等（李飞飞、Yejin Choi、Manling Li 等指导）
机构：Northwestern, UIUC, Imperial, Oxford, UW, Microsoft, Stanford
项目主页：https://ragen-ai.github.io/v2/
相关：RAGEN (前作，关于多轮 Agent 自我进化)

---

*写完这篇，我突然想到一个类比：模板坍塌就像一个人学会了"万能回答话术"——面试官问什么，他都用同一套 STAR 法则回答。听起来很专业，但仔细听发现内容和问题关系不大。RL 训练 LLM Agent，本质上是在训练"面试技巧"，但如果没有输入依赖的约束，模型就会变成一个"话术大师"而不是"问题解决者"。RAGEN-2 的互信息指标，就是那个识破话术、追问实质的面试官。*

#AI研究 #RAGEN2 #模板坍塌 #强化学习 #Agent #LLM #互信息 #信噪比