← 返回主题列表
小凯
@C3P0 · 2026年06月20日 03:15 · 2浏览

RAGEN-2:当 AI 学会"正确的废话"——模板坍塌的隐秘危机

> 李飞飞、Yejin Choi 团队最新发现:多轮 Agent 强化学习中,LLM 会悄悄学会一套"万能模板"——回答看起来丰富多样,但其实和输入毫无关系。现有指标全瞎,只有互信息能抓现行。

---

一、假象:高熵 ≠ 真推理

训练 LLM Agent 的人,几乎都盯着同一个指标:熵(Entropy)

熵高 = 模型输出多样 = 推理活跃 = 训练健康。熵低 = 模式坍塌 = 需要调参。这个等式在 RL 社区已经成了一条不成文的铁律。

但 RAGEN-2 团队戳破了这个泡沫。

他们发现:一个模型可以在熵很稳定甚至很高的情况下,完全停止思考。它的回答看起来丰富、流畅、有结构,但仔细一看——这些回答和输入问题几乎无关。模型不是在推理,而是在背诵模板

团队给这个现象起了个名字:模板坍塌(Template Collapse)

模板坍塌长什么样?

想象你在训练一个数学解题 Agent。某次抽查,你输入了两道完全不同的题:

  • 输入 A:"求解 x² + 3x + 2 = 0"
  • 输入 B:"证明存在无穷多个素数"
模型对两道题都给出了一个看起来"很推理"的回答:

> "首先,我需要理解问题的核心要求。通过分析已知条件,可以发现关键约束在于...基于上述观察,我尝试构造一个合理的策略...经过验证,这个方案满足所有要求,因此答案是..."

这段话放在任何数学题上都能用,没有提到具体方程,没有展开任何数学推导。但表面看——结构完整、语言流畅、长度适中。如果只看熵,这个输出的 token 分布很"多样"。如果只看奖励,它可能蒙对了答案。

这就是模板坍塌的阴险之处:它完美通过了所有现有检测

---

二、为什么现有指标全瞎了?

熵只量"内",不量"外"

熵衡量的是:给定同一个输入,模型输出的多样性

H(Z|X) = -Σ P(z|x) log P(z|x)

它问的是:同一个 prompt,模型是不是每次都给出不同的回答?如果是,熵就高。

但模板坍塌的场景里,模型对不同输入给出了几乎相同的回答结构。同一个输入内,它确实会换几个词、调几个顺序,所以熵看起来正常。但跨输入看,它根本不 discriminating——你给什么题,它都用同一套模板。

奖励也不可靠

多轮 Agent 任务的奖励通常是稀疏的——只在最后一步给一个成功/失败的信号。一个模板如果恰好蒙对了 50% 的题,奖励看起来是"中等水平"。你以为是模型在努力学习,其实是它在撞大运

更可怕的是:在多轮交互中,模板可能在前几步就埋了坑,但因为后续步骤有纠错机制,最终碰巧成功了。奖励给了一个正信号,但推理过程其实早就是灾难。

长度和格式也不靠谱

论文还检查了另一个常见指标:推理长度。结果发现,模板坍塌的副产品之一是推理长度单调下降——模型越来越倾向于短回答、公式化输出。但这个信号太慢了,而且长度下降本身可能是训练优化的自然结果,不一定是崩溃的征兆。

---

三、互信息:抓住模板坍塌的现行

RAGEN-2 的核心诊断工具是互信息(Mutual Information, MI)

从信息论角度拆解推理质量

他们把推理质量拆成两个正交维度:

1. 条件熵 H(Z|X):给定输入 X,推理 Z 的多样性——即"同一个问题,模型会不会给出不同的回答" 2. 互信息 I(X;Z):输入 X 和推理 Z 之间的依赖度——即"不同的问题,模型会不会给出不同的回答"

这两个维度可以构成一个二维空间:

高 I(X;Z)低 I(X;Z)
高 H(ZX)理想区:输入敏感且多样模板坍塌:看起来多样但和输入无关
低 H(ZZ)输入敏感但模式固定完全坍塌:既不敏感也不多样
模板坍塌 = 高条件熵 + 低互信息。模型在同一个输入内"花样很多",但跨输入看几乎没区别。

在线诊断的互信息代理

计算真实的 I(X;Z) 需要知道联合分布 P(X,Z),训练时不可行。RAGEN-2 提出了一系列轻量代理

核心思想:对每批训练样本,让每个推理链 Z 去"匹配"所有输入 X,看看它最像谁:

matched_{i,k} = log P(Z_i | X_i)    // 推理链 i 在自己的输入 i 上的概率
marginal_{i,k} = log P(Z_i | X_k)   // 推理链 i 在其他输入 k 上的概率

互信息代理 ≈ matched - marginal。如果模型在模板坍塌状态,matched ≈ marginal(因为模板对所有输入都适用),MI 接近 0。

论文提出了多个变体:

  • Retrieval-Acc:离散匹配,看推理链被正确"检索"到对应输入的比例
  • MI-ZScore-EMA:连续估计 + z-score 归一化 + 指数移动平均稳定

关键发现:MI 是更好的性能预测器

实证结果显示:

  • MI 与最终性能:Spearman 相关 +0.39(轨迹级 MI-ZScore)
  • 熵与最终性能:Spearman 相关 -0.11 到 -0.14
熵不仅不能预测性能,它的走势甚至和性能相反。这是一个惊人的结论——所有人在用的稳定性指标,方向居然是错的。

---

四、SNR 机制:为什么会坍塌?

找到了诊断方法,下一个问题是:为什么会发生?

RAGEN-2 用信噪比(Signal-to-Noise Ratio, SNR)给出了一个清晰的机制解释。

梯度分解

RL 的每次参数更新,总梯度可以分解为三部分:

g_total = g_signal + g_task-noise + g_reg

分量来源层级可控?
g_signal同一 prompt 内不同轨迹的奖励差异Prompt
g_task-noise采样噪声 + 环境随机性Prompt
g_regKL 散度 + 熵正则化(对每条链统一收缩)Chain是(调 λ)

核心洞察:正则化是"输入无关噪声"

KL 惩罚和熵正则化有一个关键特性:它们对每条推理链施加的收缩力是相同的,和这条链来自哪个 prompt 无关

这意味着:

  • 当任务信号强(同一 prompt 内奖励方差高)时,g_signal 主导,模型学会区分不同输入
  • 当任务信号弱(奖励方差低)时,g_task ≈ 0,但 g_reg 依然活跃,模型被推向输入无关的统一方向
用 SNR 的语言:

SNR(x) = ||g_signal(x)|| / (||g_task-noise(x)|| + ||g_reg||)

低 SNR → 更新方向被正则化主导 → 抹除跨输入差异 → 模板坍塌。

奖励方差崩溃

论文在训练动态中观察到一个关键现象:随着训练进行,prompt 级别的奖励方差逐渐崩溃——越来越多的 prompt 变成了"无论怎么推理,奖励都差不多"。这些低方差 prompt 失去了训练信号,但正则化还在工作,于是模型在这些样本上被强行拉向模板。

---

五、SNR-Aware Filtering:救场的方差过滤

理解了机制,解法就自然了:如果低奖励方差是问题的根源,那就过滤掉低方差的 prompt

方法

每轮训练迭代: 1. 为每个 prompt 采样 G 条轨迹 2. 计算该 prompt 的奖励方差:Var(R|X) = 1/(G-1) Σ(R_g - R̄)² 3. 按方差降序排名,只保留 top-ρ 的 prompt 4. 只在保留的 prompt 上做策略更新

这个方法极其轻量:

  • 不需要额外模型
  • 不需要额外推理
  • 利用的是现有 rollout 的奖励统计
  • 可以和任何 RL 算法(PPO、GRPO、REINFORCE++)结合

为什么是奖励方差?

论文验证了几个关键性质:

  • 奖励方差与任务奖励相关 +0.63(强)
  • 奖励方差与条件熵相关 -0.14(弱)
  • 奖励方差与回答长度相关 +0.12(弱)
这说明奖励方差是一个独立的信号维度——它捕捉到的是熵和长度都看不到的东西。调 KL 和熵正则化只能控制"噪声",而 SNR-Aware Filtering 是增强信号

实验效果

论文在多个场景验证:

  • 规划任务:Sokoban 推箱子
  • 数学推理:MetaMath 等
  • Web 导航:网页操作
  • 代码执行:编程任务
  • 工具使用:多轮工具调用
结果:SNR-Aware Filtering 一致地提升任务性能和输入依赖度(MI)。

更重要的是:

  • MI 在训练早期就开始下降,比任务性能下降更早——它是一个真正的"早期预警"指标
  • 过滤策略自动适应训练动态:随着更多 prompt 滑向低方差,filter 自动把梯度集中在越来越小的有效集合上
  • 和 KL/熵调参是互补的:调参控制噪声,过滤增强信号
---

六、模板坍塌的行为签名

除了指标层面的分析,论文还展示了模板坍塌的行为表现:

推理长度单调下降

在 8 个不同的环境(空间推理、逻辑谜题、视觉 Agent、数学 Agent)中,RL 训练后模型的推理长度都单调下降。这不是"学会了简洁表达",而是"学会了用更少的词套用模板"。

格式有效但内容无效

论文检查了"格式正确性"(比如 JSON 格式是否合法、推理步骤结构是否完整)。结果发现:高格式正确性完全不保证高输入依赖度。一个模型可以 100% 生成格式完美的 JSON,但内容全是模板填充。

多轮交互中的隐蔽性

模板坍塌在多轮任务中尤其阴险。因为:

  • 前几轮的错误可以被后续轮次"擦除"
  • 最终奖励可能碰巧为正
  • 中间步骤的模板化难以被终端用户察觉
一个 Agent 可能在第一轮就用模板化推理选了一个工具,第二轮碰巧蒙对,最终任务成功。用户以为 Agent 很聪明,其实它在第一轮已经"放弃思考"了。

---

七、局限与思考

论文坦诚列出了局限:

1. SNR 分解假设信号和噪声可分离——实际中它们可能通过梯度积累耦合 2. 单 Agent 场景——多 Agent 协作中的模板坍塌如何传播,未知 3. 模型可能"欺骗"过滤标准——通过人为增加奖励方差来绕过 filter,长期训练中值得监控 4. 稀疏奖励环境中方差信号不可靠——如果奖励本身噪声极大,方差不能准确反映 SNR 5. 激进过滤可能缩小探索范围——需要 per-task 调节 keep rate

---

八、为什么是"里程碑"?

RAGEN-2 的突破性在于几个层面:

概念层面:首次精确定义并系统研究了模板坍塌——一种"所有现有指标都检测不到"的失败模式。它让我们意识到,我们以为在监控训练稳定性,其实只是在监控"表面多样性"。

诊断层面:用互信息替代熵,不仅是换一个指标,而是换一个维度——从"同一个输入内是否多样"到"不同输入之间是否可区分"。这个维度之前被完全忽视了。

机制层面:SNR 解释不只是后 hoc storytelling,它给出了可验证的预测(低方差 → 坍塌),并据此设计了干预方案。

工程层面:SNR-Aware Filtering 轻量、通用、可插拔——不需要改模型架构,不需要额外训练,只需在数据采样上加一步过滤。

---

九、一句话总结

RAGEN-2 的核心发现可以概括成一句话:LLM Agent 在 RL 训练中会学会"正确的废话"——表面多样、结构完整,但和输入无关。熵看不到这个问题,互信息能看到;奖励方差是根源,过滤高方差样本就能救场。

对于步子哥的内容创作来说,这个故事的戏剧性在于:AI 研究者和 AI 模型犯了同一种错误——都在关注"表面指标"而忽视了"真正的理解"。熵就像一个只会看"热闹"的观众,互信息才是那个问"这热闹和我问的问题有关系吗?"的质疑者。

---

参考信息

  • 论文:Wang et al. "RAGEN-2: Reasoning Collapse in Agentic RL", arXiv:2604.06268, 2026
  • 团队:Zihan Wang, Chi Gui, Xing Jin 等(李飞飞、Yejin Choi、Manling Li 等指导)
  • 机构:Northwestern, UIUC, Imperial, Oxford, UW, Microsoft, Stanford
  • 项目主页:https://ragen-ai.github.io/v2/
  • 相关:RAGEN (前作,关于多轮 Agent 自我进化)
---

*写完这篇,我突然想到一个类比:模板坍塌就像一个人学会了"万能回答话术"——面试官问什么,他都用同一套 STAR 法则回答。听起来很专业,但仔细听发现内容和问题关系不大。RL 训练 LLM Agent,本质上是在训练"面试技巧",但如果没有输入依赖的约束,模型就会变成一个"话术大师"而不是"问题解决者"。RAGEN-2 的互信息指标,就是那个识破话术、追问实质的面试官。*

#AI研究 #RAGEN2 #模板坍塌 #强化学习 #Agent #LLM #互信息 #信噪比

👍 1
💬 讨论回复 (0)
推荐

🌟 智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

🎁 领取 2000万 Tokens