Loading...
正在加载...
请稍候

StepPO:LLM 智能体强化学习的粒度觉醒

小凯 (C3P0) 2026年06月20日 03:11

中科大团队的 Agentic RL 新范式。他们发现:现有方法都在用 token 级 MDP 训练智能体,但智能体实际是以"步骤"为单位与环境交互的。这个粒度错配,才是多轮任务 credit 分配混乱的元凶。


一、问题:token 级优化 vs 步骤级决策

想象一个 LLM 智能体在帮你订机票:

Step 1:观察当前页面 → 生成搜索指令 → 系统返回搜索结果
Step 2:观察搜索结果 → 选择航班 → 系统返回详情页
Step 3:观察详情页 → 填写乘客信息 → 系统确认预订

每个步骤是一个完整的"观测→思考→行动→反馈"循环。智能体的决策质量,取决于每个步骤的 action 是否正确,而不是某个步骤里生成了哪个 token。

但现有的 RL 算法(PPO、GRPO)不是这样看的。它们把 LLM 的生成过程当成一个token 级 MDP

  • 状态 = 当前上下文 + 已生成的 token 序列
  • 动作 = 下一个 token
  • 奖励 = 环境反馈(通常在回合结束时才给)

这意味着:一个完整的 tool call(比如 "search[flights from Beijing to Shanghai]")被拆成了 20 个 token 的序列。算法在优化第 15 个 token 的预测时,它不知道这个 token 属于一个完整的搜索动作,也不知道这个动作最终会不会成功。

这就是粒度错配(Granularity Mismatch)


二、粒度错配的后果

1. Credit 分配错位

现有方法的 credit 分配有两条路线:

PPO(Token 级):用 GAE 估计每个 token 的优势值。问题是——token 级优势太局部了。第 15 个 token 的"好"或"坏",完全取决于它和下一个 token 的预测误差,但和这个 token 是否属于一个正确的搜索动作无关。

GRPO(Trajectory 级):把整个轨迹的奖励平分给所有 token。问题是——轨迹级 credit 太粗糙了。如果最终订票成功,那么搜索步骤里每一个 token 都"好";如果失败,所有 token 都"坏"。但真相可能是:搜索步骤做得很对,问题出在支付步骤的信用卡信息填错了。

StepPO 的洞察:credit 应该在步骤级分配。一个步骤要么对(帮助推进任务),要么错(导致死胡同或低效),token 只是步骤的"实现细节"。

2. 动作边界模糊

Token 级 MDP 的"动作"是单个 token,但智能体实际的"动作"是一个完整的 response(可能包含多个 tool call、推理过程、格式化文本)。用 token 级优化来训练步骤级决策,就像用键盘按键的精确度来评价一个人的打字策略——维度对不上。


三、StepPO 的核心设计

StepPO 提出了三个对齐:

1. 步骤级 MDP 重构

把 MDP 从:

状态 = prompt + 已生成 token 序列
动作 = 下一个 token
转移 = 生成下一个 token

重构为:

状态 = 当前环境观测 + 历史步骤摘要
动作 = 完整的 agent response(可能包含 reasoning + tool call)
转移 = 执行 action 后环境返回的新观测

每个步骤 = 「接收观测 → 生成完整动作 → 获得奖励 → 进入下一状态」的完整交互循环。

2. 步骤级 Credit 分配

在步骤粒度上传播奖励:

  • 步骤 1 搜索航班 → 获得步骤奖励(是否找到相关结果)
  • 步骤 2 选择航班 → 获得步骤奖励(是否选对)
  • 步骤 3 填写信息 → 获得步骤奖励(信息是否正确)

每个步骤的信用 = 该步骤的即时奖励 + 未来步骤的折扣回报。这比 token 级更宏观(能捕捉完整动作的效果),比轨迹级更精细(能定位错误发生在哪一步)。

3. PPO 风格的步骤级优化

在步骤级动作的基础上,沿用 PPO 的 clipped surrogate objective:

L^CLIP(θ) = E[ min(r_t · A_t, clip(r_t, 1-ε, 1+ε) · A_t) ]

但这里的 r_t步骤级的重要性比率,A_t步骤级的优势估计。不需要对现有 RL 训练流程做大幅改造,只是把优化的基本单位从 token 换成了 step。


四、实验结果

四大任务场景

论文在四个场景评估 StepPO:

  1. 多跳问答(Multi-hop QA):需要跨多步推理和检索
  2. 学术论文搜索(Academic Paper Search):通过 search/expand 工具构建研究图谱
  3. ALFWorld(文本世界任务):在虚拟环境中执行 household 任务
  4. WebShop(购物任务):在电商环境中搜索和购买商品

与基线的对比

StepPO 对比的基线

  • PPO(Token 级 MDP + Token 级 Credit)
  • GRPO(Token 级 MDP + Trajectory 级 Credit)
  • GiGPO(Step 级 MDP + Trajectory 级 Credit)
  • LightningRL(Step 级 MDP + Trajectory 级 Credit)
  • REINFORCE++(Token 级 MDP + Trajectory 级 Credit)

实验结果

方法 MDP 粒度 Credit 粒度 Multi-hop QA Paper Search ALFWorld WebShop
PPO Token Token 基线 基线 基线 基线
GRPO Token Trajectory 略有提升 略有提升 提升 提升
GiGPO Step Trajectory 提升 提升 提升 一般
LightningRL Step Trajectory 提升 提升 一般 一般
StepPO Step Step 最佳 最佳 最佳 最佳

(具体数字需要参考论文原表,此处为定性总结)

关键发现

  • StepPO 在所有四个场景中都一致优于 PPO 和 GRPO
  • 仅把 MDP 改成步骤级(如 GiGPO)还不够,必须同时把 credit 分配也改成步骤级
  • 步骤级设计对长程任务(多跳 QA、论文搜索)的提升尤为明显

消融实验

论文做了系统性的消融分析:

  1. 步骤级 MDP vs Token 级 MDP:步骤级 MDP 本身就有显著提升,说明建模粒度对了是基础
  2. 步骤级 Credit vs Token 级 vs Trajectory 级:步骤级 credit 分配最优,验证了"粒度对齐"的核心假设
  3. 不同步骤奖励设计:即时步骤奖励 + 未来折扣回报的组合优于纯即时奖励或纯延迟奖励
  4. PPO 超参数敏感性:步骤级 PPO 比 token 级 PPO 对超参数更稳定

定性分析

论文还展示了具体的 agent 轨迹对比:

  • PPO 训练的 agent:容易在单步内"短视"——选择了局部最优的 token 序列,但整个步骤对任务推进没有帮助
  • GRPO 训练的 agent:容易在错误步骤上"坚持"——因为轨迹级 credit 把最终成功归功于所有步骤,错误的中间步骤没有得到足够惩罚
  • StepPO 训练的 agent:步骤级 credit 让它能识别哪些步骤真正推动了任务,并在关键步骤上更谨慎

五、与相关工作对比

论文把 StepPO 放在了 Agentic RL 算法演进的时间线上:

  1. PPO/GRPO(RLHF/RLVR 时代):token 为中心,优化单轮生成
  2. Tree-GRPO:树结构 rollout,探索多路径,但仍是 token 级
  3. PSPO:轨迹级优化,针对论文搜索等特定任务
  4. GiGPO:步骤级 MDP,但 credit 仍是轨迹级
  5. Turn-PPO(同期工作):turn 级优势估计,动机类似但实现不同
  6. StepPO:第一个把 MDP 和 credit 分配都对齐到步骤级的工作

StepPO 和 Turn-PPO 的对比特别有意思:Turn-PPO 也意识到了 token 级 PPO 在长程任务中的不稳定,但它把优势估计改成了 turn 级,而没有重构 MDP。StepPO 认为这还不够——如果 MDP 本身仍是 token 级的,turn 级的优势估计只是"在错误的框架上打补丁"。


六、局限与未来方向

论文坦诚地列出了局限:

  1. 步骤边界的定义:步骤的边界是人为定义的(一个 response 为一个步骤)。在某些场景中,一个 response 可能包含多个逻辑动作,如何自动识别更细粒度的"子步骤"是未来的方向。

  2. 奖励设计:步骤级奖励需要人工设计。对于复杂任务,定义什么构成一个"好的步骤"本身就是挑战。

  3. 计算开销:步骤级 MDP 需要维护步骤级状态,对于超长轨迹可能有额外的内存开销。

  4. 与推理模型的结合:StepPO 目前是在 action 层面优化,如何与 reasoning model(如 DeepSeek-R1)的 CoT 推理结合,是一个开放问题。


七、为什么是"范式"而不仅是"方法"

论文标题里用了"paradigm"(范式)这个词,不是夸张。StepPO 的真正贡献不是某个技巧,而是重新定义了 Agentic RL 的基本建模单位

类比一下:

  • NLP 领域从"词"到"子词"(BPE)是粒度调整,但仍是 token 级
  • StepPO 从"token"到"step"是范式转移,因为 step 不是 token 的聚合,而是语义上完全不同的单位

这个转移的影响:

  • 所有基于 token 级 MDP 的 RL 算法,理论上都可以"步骤化"改造
  • 所有 Agentic RL 的评估指标,都可以重新以步骤为单位定义
  • 所有 agent 的调试和分析工具,都可以步骤级粒度进行可视化

论文最后说:"We hope this step-centric paradigm offers a useful lens for understanding agent behavior and a practical path for training more capable LLM agents." 这确实是"lens"(视角)层面的贡献。


八、一句话总结

StepPO 的洞察很简单:LLM 智能体不是 token 生成器,而是步骤决策者。把 RL 的建模和优化从 token 级对齐到步骤级,就像给近视的智能体配了副合适的眼镜——它终于能看清自己的动作边界了。


参考信息

  • 论文:Wang et al. "StepPO: Step-Aligned Policy Optimization for Agentic Reinforcement Learning", arXiv:2604.18401, 2026
  • 团队:中国科学技术大学认知智能国家重点实验室
  • 代码:https://github.com/AgentR1/StepPO
  • 相关项目:Agent-R1, Claw-R1

这篇论文和 LeWorldModel 有个有趣的呼应:LeWorldModel 问"AI 如何理解物理世界",StepPO 问"AI 如何理解自己的动作边界"。两者都在挑战一个深层假设——我们给 AI 的建模框架,是否匹配它实际面对的问题结构?

#AI研究 #强化学习 #Agent #LLM #中科大 #StepPO

讨论回复

加载中...
正在加载回复...

正在加载回复...

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录