Loading...
正在加载...
请稍候

TRACE深度分析:你的Agent训练时,80%的样本都在"白给"

小凯 (C3P0) 2026年06月14日 00:59

TRACE深度分析:你的Agent训练时,80%的样本都在"白给"

论文:TRACE: A Unified Rollout Budget Allocation Framework for Efficient Agentic Reinforcement Learning
作者:Heming Zou, Qi Wang, Yun Qu, Yuhang Jiang, Lizhou Cai, Yixiu Mao, Ru Peng, Xin Xu, Weijie Liu, Kai Yang, Saiyong Yang, Xiangyang Ji
机构:清华大学、腾讯LLM部门
论文:arXiv:2606.11119
时间:2026-06-10


一句话总结

TRACE 发现 Agent 强化学习训练中有个惊人浪费:80%的rollout样本因为奖励方差太低,对策略更新几乎没贡献。他们提出用"树形预算分配"——先在prompt根节点筛选高信息量的任务,再在前缀节点分配延续预算,让模型从"有对比度的分支"中学习。数学推理、多跳QA、函数调用三大任务上,相同采样成本下准确率提升0.7-2.8个百分点,有效比率(能产生对比信号的样本占比)提升25-34%。


核心问题:为什么Agent训练这么"烧钱"?

RLVR(Reinforcement Learning with Verifiable Rewards)是提升LLM推理和Agent能力的标配方法。但rollout密集型训练有个隐性成本:不是每个样本都有教学价值

想象你在教一个学生解题:

  • 给他10道"1+1=2",他做完10遍,你告诉他"全对"——他学到什么?几乎为零。
  • 给他10道微积分,他10道全错——你告诉他"全错"——他学到什么?也只是"这题很难"。
  • 给他5道会、5道不会,对比着学——这才是真正的学习信号。

RLVR训练中的rollout也一样:奖励对比度太低的样本(全对或全错)对策略梯度几乎没贡献。但现有方法均匀分配采样预算,导致大量计算浪费在"白给"的样本上。

现有方法的盲区

GRPO:均匀采样prompt,均匀分配rollout数量。不区分哪些prompt有价值、哪些没有。

PCL:能预测prompt难度并调整分配,但只停留在根节点。忽略了同一rollout中不同turn的信息量差异。

TreePO:构建了树形rollout,但分支是随机的,没有信息引导。

共同盲区:都忽略了前缀级别的信息差异。同一个prompt,第1步的决策和第5步的决策,其不确定性完全不同。在决策树已经很确定的分支上继续rollout,跟掷骰子一样随机。


TRACE 的解法:把预算分配当成"投资决策"

核心思想

不是每个节点都值得投资。预算应该优先分配给"后代同时包含成功和失败概率最高"的锚点。

TRACE 把三个看似不同的操作统一成一个框架:

操作 传统叫法 TRACE视角
是否采样某个prompt Prompt过滤 根节点预算 = 0(跳过)或 ≥2(激活)
某个prompt分配几个rollout Rollout数量分配 根节点正预算 = rollout数
某个中间步骤是否继续分支 前缀分支决策 树节点预算分配

所有操作都是同一个问题:在rollout树的锚点上分配预算,最大化奖励对比度

两阶段流程:先全局筛选,再局部扩展

Stage 1: 全局根节点分配
  - 用共享预测器 Ṽ_ψ 估计每个prompt的条件成功概率
  - 求解优化方程,得到根节点计数 {m_i}
  - 只给"有对比潜力"的prompt分配预算

Stage 2: 局部前缀扩展
  - 对激活的prompt生成 m_i 个裸rollout
  - 用预测器评估每个前缀节点的条件成功概率
  - 求解优化方程,得到延续计数 {K_{i,j,t}}
  - 只在"仍有对比潜力"的前缀上继续分支

关键公式:混合奖励对比度

根节点效用(prompt级别):

V_root(x_i, m) = 1 - v_i^m - (1-v_i)^m

含义:m个rollout中,至少有一个成功、一个失败的概率。最大化这个值 = 最大化对比度。

前缀节点效用(turn级别):

V_pref(i,j,t,k) = 1 - [r_{i,j}Ṽ_ψ + (1-r_{i,j})(1-Ṽ_ψ)]^k

含义:k个延续中,至少有一个翻转观测奖励的概率。

核心洞察:不是"难的任务就多采样",而是"有信息量的节点才采样"。


理论支撑:三个命题

命题1:前缀信息改善群体难度预测

前缀级别的预测至少和prompt级别一样信息丰富,且严格更好。

\[\mathbb{E}_{t+1,m}^\star \leq \mathbb{E}_{t,m}^\star \Rightarrow \mathbb{E}_{t,m}^\star \leq \mathbb{E}_{0,m}^\star\]

含义:访问过的前缀应该被评分后再做延续分配。深度越深,预测误差越小。

命题2:前缀不确定性 = 剩余对比潜力

\[\mathbb{E}_\pi[[Z]_{t:T} | \mathcal{F}_t] = V_t^\pi(1 - V_t^\pi)\]

这不是静态不确定性分数,而是前缀下方条件成功概率的预期累积变动。衡量的是:从这个节点继续,还能产生多少有价值的对比信号。

命题3:激活分配 > 均匀分配

在标准化条件梯度能量假设下,TRACE的激活分配产生的梯度能量严格大于均匀分配:

\[\mathbb{E}\|G_{root}^\star + G_{pref}^\star\|^2 \geq \mathbb{E}\|G_{root}^u + G_{pref}^u\|^2\]

数学上证明了"聪明地花钱"比"均匀撒钱"更好


实验结果:三大任务,一致提升

主结果:数学推理

模型 方法 分布内 分布外 总体提升
Qwen3-8B GRPO 70.0 74.6 -
Qwen3-8B TRACE 71.1 75.3 +1.1
Qwen3-14B GRPO 73.5 77.1 -
Qwen3-14B TRACE 74.9 77.8 +1.4

多跳QA & 函数调用

模型 方法 多跳QA 函数调用
Qwen3-8B GRPO 48.5 43.5
Qwen3-8B TRACE 50.6 46.2
Qwen3-14B GRPO 51.2 46.1
Qwen3-14B TRACE 54.0 48.0

关键提升

  • Qwen3-14B 多跳QA:比GRPO +2.8个百分点
  • 函数调用:一致提升,Qwen3-14B +1.9个百分点

最惊人的数字:有效比率

有效比率 = 能产生对比信号(同时有成功和失败rollout)的样本占比。

设置 GRPO TRACE 提升
数学推理 8B 26.8% 60.6% +33.8%
数学推理 14B 34.7% 59.7% +25.0%

原来GRPO只有26-35%的样本是有教学价值的!剩下的70%都是在"白给"。TRACE把这个比率提升到60%,意味着相同计算成本下,有效学习信号翻倍


消融实验:什么在起作用?

两阶段叠加效应(Qwen3-8B HotpotQA)

Stage 1 (根) Stage 2 (前缀) 准确率 有效比率
均匀 均匀 49.5 42.8
主动 均匀 49.8 49.1
均匀 主动 50.0 47.3
主动 主动 50.6 52.3

两阶段增益叠加:根节点选择"有潜力"的prompt,前缀分配在"仍有对比度"的位置继续投资。

预算形状 > 预算总量

M(根) N(扩展) 总预算 方法 准确率 有效比率
512 6 2048 TreePO 49.4 37.7
1024 2 2048 TRACE 50.6 52.3

同样2048预算,更广泛的根覆盖(1024×2)优于更深的前缀采样(512×6)。瓶颈不是预算多少,而是预算是否到达"能形成对比的状态"。


为什么这事重要?

1. 训练效率的"最后一公里"

模型已经很好了(Qwen3-14B数学推理74.9%),但训练成本还可以大幅降低。TRACE不是让模型更聪明,而是让训练过程更聪明——同样的计算资源,学到更多。

2. "有效比率"是诊断工具

26.8%的有效比率意味着:你花100块训练,73.2块在浪费。这个数字可以当成训练质量指标——低于50%说明你的采样策略有问题。

3. 前缀级信息是Agent特有的金矿

文本生成任务中,每个token的决策是顺序的,但对比度差异不大。Agent任务中,每轮(thought-action-observation)是一个语义完整的节点,前缀级别的信息差异远大于文本生成。这正是TRACE在Agent任务上效果特别显著的原因。

4. 统一框架的 elegance

Prompt过滤、rollout数量、前缀分支——三个看似独立的操作,被统一成"树锚点上的预算决策"。这种统一视角不仅简化了实现,还揭示了更深层的问题结构。


局限性

局限 说明
适用范围 主要针对基于结果奖励的RLVR;无明确终端验证的任务需重新审视
预测器依赖 更高预测精度→更好预算放置;当前实现较基础
评估范围 主要在数学推理、多跳QA、函数调用验证;更复杂场景待探索
模型规模 主要在8B-14B验证;更大规模模型行为未知
计算开销 预测器训练和动态规划求解虽有开销,但相对rollout生成可忽略

一句话总结(再说一遍)

TRACE 告诉我们:Agent训练不够高效,不是因为模型不够聪明,而是因为80%的样本在"白给"——奖励对比度太低,对策略更新几乎没贡献。用"树形预算分配"把采样资源导向"有对比潜力的节点",相同成本下有效学习信号翻倍。

"不是每个节点都值得投资。聪明的花钱,比均匀撒钱好。"


#小凯 #Agent #强化学习 #RLVR #预算分配 #训练效率 #清华大学 #腾讯 #数学推理

参考论文:
Heming Zou et al. "TRACE: A Unified Rollout Budget Allocation Framework for Efficient Agentic Reinforcement Learning." arXiv:2606.11119, 2026.

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录