TRACE深度分析:你的Agent训练时,80%的样本都在"白给"
论文:TRACE: A Unified Rollout Budget Allocation Framework for Efficient Agentic Reinforcement Learning
作者:Heming Zou, Qi Wang, Yun Qu, Yuhang Jiang, Lizhou Cai, Yixiu Mao, Ru Peng, Xin Xu, Weijie Liu, Kai Yang, Saiyong Yang, Xiangyang Ji
机构:清华大学、腾讯LLM部门
论文:arXiv:2606.11119
时间:2026-06-10
一句话总结
TRACE 发现 Agent 强化学习训练中有个惊人浪费:80%的rollout样本因为奖励方差太低,对策略更新几乎没贡献。他们提出用"树形预算分配"——先在prompt根节点筛选高信息量的任务,再在前缀节点分配延续预算,让模型从"有对比度的分支"中学习。数学推理、多跳QA、函数调用三大任务上,相同采样成本下准确率提升0.7-2.8个百分点,有效比率(能产生对比信号的样本占比)提升25-34%。
核心问题:为什么Agent训练这么"烧钱"?
RLVR(Reinforcement Learning with Verifiable Rewards)是提升LLM推理和Agent能力的标配方法。但rollout密集型训练有个隐性成本:不是每个样本都有教学价值。
想象你在教一个学生解题:
- 给他10道"1+1=2",他做完10遍,你告诉他"全对"——他学到什么?几乎为零。
- 给他10道微积分,他10道全错——你告诉他"全错"——他学到什么?也只是"这题很难"。
- 给他5道会、5道不会,对比着学——这才是真正的学习信号。
RLVR训练中的rollout也一样:奖励对比度太低的样本(全对或全错)对策略梯度几乎没贡献。但现有方法均匀分配采样预算,导致大量计算浪费在"白给"的样本上。
现有方法的盲区
GRPO:均匀采样prompt,均匀分配rollout数量。不区分哪些prompt有价值、哪些没有。
PCL:能预测prompt难度并调整分配,但只停留在根节点。忽略了同一rollout中不同turn的信息量差异。
TreePO:构建了树形rollout,但分支是随机的,没有信息引导。
共同盲区:都忽略了前缀级别的信息差异。同一个prompt,第1步的决策和第5步的决策,其不确定性完全不同。在决策树已经很确定的分支上继续rollout,跟掷骰子一样随机。
TRACE 的解法:把预算分配当成"投资决策"
核心思想
不是每个节点都值得投资。预算应该优先分配给"后代同时包含成功和失败概率最高"的锚点。
TRACE 把三个看似不同的操作统一成一个框架:
| 操作 | 传统叫法 | TRACE视角 |
|---|---|---|
| 是否采样某个prompt | Prompt过滤 | 根节点预算 = 0(跳过)或 ≥2(激活) |
| 某个prompt分配几个rollout | Rollout数量分配 | 根节点正预算 = rollout数 |
| 某个中间步骤是否继续分支 | 前缀分支决策 | 树节点预算分配 |
所有操作都是同一个问题:在rollout树的锚点上分配预算,最大化奖励对比度。
两阶段流程:先全局筛选,再局部扩展
Stage 1: 全局根节点分配
- 用共享预测器 Ṽ_ψ 估计每个prompt的条件成功概率
- 求解优化方程,得到根节点计数 {m_i}
- 只给"有对比潜力"的prompt分配预算
Stage 2: 局部前缀扩展
- 对激活的prompt生成 m_i 个裸rollout
- 用预测器评估每个前缀节点的条件成功概率
- 求解优化方程,得到延续计数 {K_{i,j,t}}
- 只在"仍有对比潜力"的前缀上继续分支
关键公式:混合奖励对比度
根节点效用(prompt级别):
V_root(x_i, m) = 1 - v_i^m - (1-v_i)^m
含义:m个rollout中,至少有一个成功、一个失败的概率。最大化这个值 = 最大化对比度。
前缀节点效用(turn级别):
V_pref(i,j,t,k) = 1 - [r_{i,j}Ṽ_ψ + (1-r_{i,j})(1-Ṽ_ψ)]^k
含义:k个延续中,至少有一个翻转观测奖励的概率。
核心洞察:不是"难的任务就多采样",而是"有信息量的节点才采样"。
理论支撑:三个命题
命题1:前缀信息改善群体难度预测
前缀级别的预测至少和prompt级别一样信息丰富,且严格更好。
含义:访问过的前缀应该被评分后再做延续分配。深度越深,预测误差越小。
命题2:前缀不确定性 = 剩余对比潜力
这不是静态不确定性分数,而是前缀下方条件成功概率的预期累积变动。衡量的是:从这个节点继续,还能产生多少有价值的对比信号。
命题3:激活分配 > 均匀分配
在标准化条件梯度能量假设下,TRACE的激活分配产生的梯度能量严格大于均匀分配:
数学上证明了"聪明地花钱"比"均匀撒钱"更好。
实验结果:三大任务,一致提升
主结果:数学推理
| 模型 | 方法 | 分布内 | 分布外 | 总体提升 |
|---|---|---|---|---|
| Qwen3-8B | GRPO | 70.0 | 74.6 | - |
| Qwen3-8B | TRACE | 71.1 | 75.3 | +1.1 |
| Qwen3-14B | GRPO | 73.5 | 77.1 | - |
| Qwen3-14B | TRACE | 74.9 | 77.8 | +1.4 |
多跳QA & 函数调用
| 模型 | 方法 | 多跳QA | 函数调用 |
|---|---|---|---|
| Qwen3-8B | GRPO | 48.5 | 43.5 |
| Qwen3-8B | TRACE | 50.6 | 46.2 |
| Qwen3-14B | GRPO | 51.2 | 46.1 |
| Qwen3-14B | TRACE | 54.0 | 48.0 |
关键提升:
- Qwen3-14B 多跳QA:比GRPO +2.8个百分点
- 函数调用:一致提升,Qwen3-14B +1.9个百分点
最惊人的数字:有效比率
有效比率 = 能产生对比信号(同时有成功和失败rollout)的样本占比。
| 设置 | GRPO | TRACE | 提升 |
|---|---|---|---|
| 数学推理 8B | 26.8% | 60.6% | +33.8% |
| 数学推理 14B | 34.7% | 59.7% | +25.0% |
原来GRPO只有26-35%的样本是有教学价值的!剩下的70%都是在"白给"。TRACE把这个比率提升到60%,意味着相同计算成本下,有效学习信号翻倍。
消融实验:什么在起作用?
两阶段叠加效应(Qwen3-8B HotpotQA)
| Stage 1 (根) | Stage 2 (前缀) | 准确率 | 有效比率 |
|---|---|---|---|
| 均匀 | 均匀 | 49.5 | 42.8 |
| 主动 | 均匀 | 49.8 | 49.1 |
| 均匀 | 主动 | 50.0 | 47.3 |
| 主动 | 主动 | 50.6 | 52.3 |
两阶段增益叠加:根节点选择"有潜力"的prompt,前缀分配在"仍有对比度"的位置继续投资。
预算形状 > 预算总量
| M(根) | N(扩展) | 总预算 | 方法 | 准确率 | 有效比率 |
|---|---|---|---|---|---|
| 512 | 6 | 2048 | TreePO | 49.4 | 37.7 |
| 1024 | 2 | 2048 | TRACE | 50.6 | 52.3 |
同样2048预算,更广泛的根覆盖(1024×2)优于更深的前缀采样(512×6)。瓶颈不是预算多少,而是预算是否到达"能形成对比的状态"。
为什么这事重要?
1. 训练效率的"最后一公里"
模型已经很好了(Qwen3-14B数学推理74.9%),但训练成本还可以大幅降低。TRACE不是让模型更聪明,而是让训练过程更聪明——同样的计算资源,学到更多。
2. "有效比率"是诊断工具
26.8%的有效比率意味着:你花100块训练,73.2块在浪费。这个数字可以当成训练质量指标——低于50%说明你的采样策略有问题。
3. 前缀级信息是Agent特有的金矿
文本生成任务中,每个token的决策是顺序的,但对比度差异不大。Agent任务中,每轮(thought-action-observation)是一个语义完整的节点,前缀级别的信息差异远大于文本生成。这正是TRACE在Agent任务上效果特别显著的原因。
4. 统一框架的 elegance
Prompt过滤、rollout数量、前缀分支——三个看似独立的操作,被统一成"树锚点上的预算决策"。这种统一视角不仅简化了实现,还揭示了更深层的问题结构。
局限性
| 局限 | 说明 |
|---|---|
| 适用范围 | 主要针对基于结果奖励的RLVR;无明确终端验证的任务需重新审视 |
| 预测器依赖 | 更高预测精度→更好预算放置;当前实现较基础 |
| 评估范围 | 主要在数学推理、多跳QA、函数调用验证;更复杂场景待探索 |
| 模型规模 | 主要在8B-14B验证;更大规模模型行为未知 |
| 计算开销 | 预测器训练和动态规划求解虽有开销,但相对rollout生成可忽略 |
一句话总结(再说一遍)
TRACE 告诉我们:Agent训练不够高效,不是因为模型不够聪明,而是因为80%的样本在"白给"——奖励对比度太低,对策略更新几乎没贡献。用"树形预算分配"把采样资源导向"有对比潜力的节点",相同成本下有效学习信号翻倍。
"不是每个节点都值得投资。聪明的花钱,比均匀撒钱好。"
#小凯 #Agent #强化学习 #RLVR #预算分配 #训练效率 #清华大学 #腾讯 #数学推理
参考论文:
Heming Zou et al. "TRACE: A Unified Rollout Budget Allocation Framework for Efficient Agentic Reinforcement Learning." arXiv:2606.11119, 2026.
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。