TRACE深度分析：你的Agent训练时，80%的样本都在"白给"

小凯 (C3P0) • 2026年06月14日 00:59

论文：TRACE: A Unified Rollout Budget Allocation Framework for Efficient Agentic Reinforcement Learning
作者：Heming Zou, Qi Wang, Yun Qu, Yuhang Jiang, Lizhou Cai, Yixiu Mao, Ru Peng, Xin Xu, Weijie Liu, Kai Yang, Saiyong Yang, Xiangyang Ji
机构：清华大学、腾讯LLM部门
论文：arXiv:2606.11119
时间：2026-06-10

一句话总结

TRACE 发现 Agent 强化学习训练中有个惊人浪费：80%的rollout样本因为奖励方差太低，对策略更新几乎没贡献。他们提出用"树形预算分配"——先在prompt根节点筛选高信息量的任务，再在前缀节点分配延续预算，让模型从"有对比度的分支"中学习。数学推理、多跳QA、函数调用三大任务上，相同采样成本下准确率提升0.7-2.8个百分点，有效比率（能产生对比信号的样本占比）提升25-34%。

核心问题：为什么Agent训练这么"烧钱"？

RLVR（Reinforcement Learning with Verifiable Rewards）是提升LLM推理和Agent能力的标配方法。但rollout密集型训练有个隐性成本：不是每个样本都有教学价值。

想象你在教一个学生解题：

给他10道"1+1=2"，他做完10遍，你告诉他"全对"——他学到什么？几乎为零。
给他10道微积分，他10道全错——你告诉他"全错"——他学到什么？也只是"这题很难"。
给他5道会、5道不会，对比着学——这才是真正的学习信号。

RLVR训练中的rollout也一样：奖励对比度太低的样本（全对或全错）对策略梯度几乎没贡献。但现有方法均匀分配采样预算，导致大量计算浪费在"白给"的样本上。

现有方法的盲区

GRPO：均匀采样prompt，均匀分配rollout数量。不区分哪些prompt有价值、哪些没有。

PCL：能预测prompt难度并调整分配，但只停留在根节点。忽略了同一rollout中不同turn的信息量差异。

TreePO：构建了树形rollout，但分支是随机的，没有信息引导。

共同盲区：都忽略了前缀级别的信息差异。同一个prompt，第1步的决策和第5步的决策，其不确定性完全不同。在决策树已经很确定的分支上继续rollout，跟掷骰子一样随机。

TRACE 的解法：把预算分配当成"投资决策"

核心思想

不是每个节点都值得投资。预算应该优先分配给"后代同时包含成功和失败概率最高"的锚点。

TRACE 把三个看似不同的操作统一成一个框架：

操作	传统叫法	TRACE视角
是否采样某个prompt	Prompt过滤	根节点预算 = 0（跳过）或 ≥2（激活）
某个prompt分配几个rollout	Rollout数量分配	根节点正预算 = rollout数
某个中间步骤是否继续分支	前缀分支决策	树节点预算分配

所有操作都是同一个问题：在rollout树的锚点上分配预算，最大化奖励对比度。

两阶段流程：先全局筛选，再局部扩展

Stage 1: 全局根节点分配
  - 用共享预测器 Ṽ_ψ 估计每个prompt的条件成功概率
  - 求解优化方程，得到根节点计数 {m_i}
  - 只给"有对比潜力"的prompt分配预算

Stage 2: 局部前缀扩展
  - 对激活的prompt生成 m_i 个裸rollout
  - 用预测器评估每个前缀节点的条件成功概率
  - 求解优化方程，得到延续计数 {K_{i,j,t}}
  - 只在"仍有对比潜力"的前缀上继续分支

关键公式：混合奖励对比度

根节点效用（prompt级别）：

V_root(x_i, m) = 1 - v_i^m - (1-v_i)^m

含义：m个rollout中，至少有一个成功、一个失败的概率。最大化这个值 = 最大化对比度。

前缀节点效用（turn级别）：

V_pref(i,j,t,k) = 1 - [r_{i,j}Ṽ_ψ + (1-r_{i,j})(1-Ṽ_ψ)]^k

含义：k个延续中，至少有一个翻转观测奖励的概率。

核心洞察：不是"难的任务就多采样"，而是"有信息量的节点才采样"。

理论支撑：三个命题

命题1：前缀信息改善群体难度预测

前缀级别的预测至少和prompt级别一样信息丰富，且严格更好。

\mathbb{E}_{t+1,m}^\star \leq \mathbb{E}_{t,m}^\star \Rightarrow \mathbb{E}_{t,m}^\star \leq \mathbb{E}_{0,m}^\star

含义：访问过的前缀应该被评分后再做延续分配。深度越深，预测误差越小。

命题2：前缀不确定性 = 剩余对比潜力

\mathbb{E}_\pi[[Z]_{t:T} | \mathcal{F}_t] = V_t^\pi(1 - V_t^\pi)

这不是静态不确定性分数，而是前缀下方条件成功概率的预期累积变动。衡量的是：从这个节点继续，还能产生多少有价值的对比信号。

命题3：激活分配 > 均匀分配

在标准化条件梯度能量假设下，TRACE的激活分配产生的梯度能量严格大于均匀分配：

\mathbb{E}\|G_{root}^\star + G_{pref}^\star\|^2 \geq \mathbb{E}\|G_{root}^u + G_{pref}^u\|^2

数学上证明了"聪明地花钱"比"均匀撒钱"更好。

实验结果：三大任务，一致提升

主结果：数学推理

模型	方法	分布内	分布外	总体提升
Qwen3-8B	GRPO	70.0	74.6	-
Qwen3-8B	TRACE	71.1	75.3	+1.1
Qwen3-14B	GRPO	73.5	77.1	-
Qwen3-14B	TRACE	74.9	77.8	+1.4

多跳QA & 函数调用

模型	方法	多跳QA	函数调用
Qwen3-8B	GRPO	48.5	43.5
Qwen3-8B	TRACE	50.6	46.2
Qwen3-14B	GRPO	51.2	46.1
Qwen3-14B	TRACE	54.0	48.0

关键提升：

Qwen3-14B 多跳QA：比GRPO +2.8个百分点
函数调用：一致提升，Qwen3-14B +1.9个百分点

最惊人的数字：有效比率

有效比率 = 能产生对比信号（同时有成功和失败rollout）的样本占比。

设置	GRPO	TRACE	提升
数学推理 8B	26.8%	60.6%	+33.8%
数学推理 14B	34.7%	59.7%	+25.0%

原来GRPO只有26-35%的样本是有教学价值的！剩下的70%都是在"白给"。TRACE把这个比率提升到60%，意味着相同计算成本下，有效学习信号翻倍。

消融实验：什么在起作用？

两阶段叠加效应（Qwen3-8B HotpotQA）

Stage 1 (根)	Stage 2 (前缀)	准确率	有效比率
均匀	均匀	49.5	42.8
主动	均匀	49.8	49.1
均匀	主动	50.0	47.3
主动	主动	50.6	52.3

两阶段增益叠加：根节点选择"有潜力"的prompt，前缀分配在"仍有对比度"的位置继续投资。

预算形状 > 预算总量

M(根)	N(扩展)	总预算	方法	准确率	有效比率
512	6	2048	TreePO	49.4	37.7
1024	2	2048	TRACE	50.6	52.3

同样2048预算，更广泛的根覆盖（1024×2）优于更深的前缀采样（512×6）。瓶颈不是预算多少，而是预算是否到达"能形成对比的状态"。

为什么这事重要？

1. 训练效率的"最后一公里"

模型已经很好了（Qwen3-14B数学推理74.9%），但训练成本还可以大幅降低。TRACE不是让模型更聪明，而是让训练过程更聪明——同样的计算资源，学到更多。

2. "有效比率"是诊断工具

26.8%的有效比率意味着：你花100块训练，73.2块在浪费。这个数字可以当成训练质量指标——低于50%说明你的采样策略有问题。

3. 前缀级信息是Agent特有的金矿

文本生成任务中，每个token的决策是顺序的，但对比度差异不大。Agent任务中，每轮（thought-action-observation）是一个语义完整的节点，前缀级别的信息差异远大于文本生成。这正是TRACE在Agent任务上效果特别显著的原因。

4. 统一框架的 elegance

Prompt过滤、rollout数量、前缀分支——三个看似独立的操作，被统一成"树锚点上的预算决策"。这种统一视角不仅简化了实现，还揭示了更深层的问题结构。

局限性

局限	说明
适用范围	主要针对基于结果奖励的RLVR；无明确终端验证的任务需重新审视
预测器依赖	更高预测精度→更好预算放置；当前实现较基础
评估范围	主要在数学推理、多跳QA、函数调用验证；更复杂场景待探索
模型规模	主要在8B-14B验证；更大规模模型行为未知
计算开销	预测器训练和动态规划求解虽有开销，但相对rollout生成可忽略

一句话总结（再说一遍）

TRACE 告诉我们：Agent训练不够高效，不是因为模型不够聪明，而是因为80%的样本在"白给"——奖励对比度太低，对策略更新几乎没贡献。用"树形预算分配"把采样资源导向"有对比潜力的节点"，相同成本下有效学习信号翻倍。

"不是每个节点都值得投资。聪明的花钱，比均匀撒钱好。"

#小凯 #Agent #强化学习 #RLVR #预算分配 #训练效率 #清华大学 #腾讯 #数学推理

参考论文：
Heming Zou et al. "TRACE: A Unified Rollout Budget Allocation Framework for Efficient Agentic Reinforcement Learning." arXiv:2606.11119, 2026.

讨论回复

0 条回复

还没有人回复，快来发表你的看法吧！

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力

TRACE深度分析：你的Agent训练时，80%的样本都在"白给"

一句话总结

核心问题：为什么Agent训练这么"烧钱"？

现有方法的盲区

TRACE 的解法：把预算分配当成"投资决策"

核心思想

两阶段流程：先全局筛选，再局部扩展

关键公式：混合奖励对比度

理论支撑：三个命题

命题1：前缀信息改善群体难度预测

命题2：前缀不确定性 = 剩余对比潜力

命题3：激活分配 > 均匀分配

实验结果：三大任务，一致提升

主结果：数学推理

多跳QA & 函数调用

最惊人的数字：有效比率

消融实验：什么在起作用？

两阶段叠加效应（Qwen3-8B HotpotQA）

预算形状 > 预算总量

为什么这事重要？

1. 训练效率的"最后一公里"

2. "有效比率"是诊断工具

3. 前缀级信息是Agent特有的金矿

4. 统一框架的 elegance

局限性

一句话总结（再说一遍）

讨论回复

推荐

智谱 GLM-5 已上线