StepPO:LLM 智能体强化学习的粒度觉醒
> 中科大团队的 Agentic RL 新范式。他们发现:现有方法都在用 token 级 MDP 训练智能体,但智能体实际是以"步骤"为单位与环境交互的。这个粒度错配,才是多轮任务 credit 分配混乱的元凶。
---
一、问题:token 级优化 vs 步骤级决策
想象一个 LLM 智能体在帮你订机票:
Step 1:观察当前页面 → 生成搜索指令 → 系统返回搜索结果 Step 2:观察搜索结果 → 选择航班 → 系统返回详情页 Step 3:观察详情页 → 填写乘客信息 → 系统确认预订
每个步骤是一个完整的"观测→思考→行动→反馈"循环。智能体的决策质量,取决于每个步骤的 action 是否正确,而不是某个步骤里生成了哪个 token。
但现有的 RL 算法(PPO、GRPO)不是这样看的。它们把 LLM 的生成过程当成一个token 级 MDP:
- 状态 = 当前上下文 + 已生成的 token 序列
- 动作 = 下一个 token
- 奖励 = 环境反馈(通常在回合结束时才给)
"search[flights from Beijing to Shanghai]")被拆成了 20 个 token 的序列。算法在优化第 15 个 token 的预测时,它不知道这个 token 属于一个完整的搜索动作,也不知道这个动作最终会不会成功。这就是粒度错配(Granularity Mismatch)。
---
二、粒度错配的后果
1. Credit 分配错位
现有方法的 credit 分配有两条路线:
PPO(Token 级):用 GAE 估计每个 token 的优势值。问题是——token 级优势太局部了。第 15 个 token 的"好"或"坏",完全取决于它和下一个 token 的预测误差,但和这个 token 是否属于一个正确的搜索动作无关。
GRPO(Trajectory 级):把整个轨迹的奖励平分给所有 token。问题是——轨迹级 credit 太粗糙了。如果最终订票成功,那么搜索步骤里每一个 token 都"好";如果失败,所有 token 都"坏"。但真相可能是:搜索步骤做得很对,问题出在支付步骤的信用卡信息填错了。
StepPO 的洞察:credit 应该在步骤级分配。一个步骤要么对(帮助推进任务),要么错(导致死胡同或低效),token 只是步骤的"实现细节"。
2. 动作边界模糊
Token 级 MDP 的"动作"是单个 token,但智能体实际的"动作"是一个完整的 response(可能包含多个 tool call、推理过程、格式化文本)。用 token 级优化来训练步骤级决策,就像用键盘按键的精确度来评价一个人的打字策略——维度对不上。
---
三、StepPO 的核心设计
StepPO 提出了三个对齐:
1. 步骤级 MDP 重构
把 MDP 从:
状态 = prompt + 已生成 token 序列
动作 = 下一个 token
转移 = 生成下一个 token
重构为:
状态 = 当前环境观测 + 历史步骤摘要
动作 = 完整的 agent response(可能包含 reasoning + tool call)
转移 = 执行 action 后环境返回的新观测
每个步骤 = 「接收观测 → 生成完整动作 → 获得奖励 → 进入下一状态」的完整交互循环。
2. 步骤级 Credit 分配
在步骤粒度上传播奖励:
- 步骤 1 搜索航班 → 获得步骤奖励(是否找到相关结果)
- 步骤 2 选择航班 → 获得步骤奖励(是否选对)
- 步骤 3 填写信息 → 获得步骤奖励(信息是否正确)
3. PPO 风格的步骤级优化
在步骤级动作的基础上,沿用 PPO 的 clipped surrogate objective:
L^CLIP(θ) = E[ min(r_t · A_t, clip(r_t, 1-ε, 1+ε) · A_t) ]
但这里的 r_t 是步骤级的重要性比率,A_t 是步骤级的优势估计。不需要对现有 RL 训练流程做大幅改造,只是把优化的基本单位从 token 换成了 step。
---
四、实验结果
四大任务场景
论文在四个场景评估 StepPO:
1. 多跳问答(Multi-hop QA):需要跨多步推理和检索 2. 学术论文搜索(Academic Paper Search):通过 search/expand 工具构建研究图谱 3. ALFWorld(文本世界任务):在虚拟环境中执行 household 任务 4. WebShop(购物任务):在电商环境中搜索和购买商品
与基线的对比
StepPO 对比的基线:
- PPO(Token 级 MDP + Token 级 Credit)
- GRPO(Token 级 MDP + Trajectory 级 Credit)
- GiGPO(Step 级 MDP + Trajectory 级 Credit)
- LightningRL(Step 级 MDP + Trajectory 级 Credit)
- REINFORCE++(Token 级 MDP + Trajectory 级 Credit)
| 方法 | MDP 粒度 | Credit 粒度 | Multi-hop QA | Paper Search | ALFWorld | WebShop |
|---|---|---|---|---|---|---|
| PPO | Token | Token | 基线 | 基线 | 基线 | 基线 |
| GRPO | Token | Trajectory | 略有提升 | 略有提升 | 提升 | 提升 |
| GiGPO | Step | Trajectory | 提升 | 提升 | 提升 | 一般 |
| LightningRL | Step | Trajectory | 提升 | 提升 | 一般 | 一般 |
| StepPO | Step | Step | 最佳 | 最佳 | 最佳 | 最佳 |
关键发现:
- StepPO 在所有四个场景中都一致优于 PPO 和 GRPO
- 仅把 MDP 改成步骤级(如 GiGPO)还不够,必须同时把 credit 分配也改成步骤级
- 步骤级设计对长程任务(多跳 QA、论文搜索)的提升尤为明显
消融实验
论文做了系统性的消融分析:
1. 步骤级 MDP vs Token 级 MDP:步骤级 MDP 本身就有显著提升,说明建模粒度对了是基础 2. 步骤级 Credit vs Token 级 vs Trajectory 级:步骤级 credit 分配最优,验证了"粒度对齐"的核心假设 3. 不同步骤奖励设计:即时步骤奖励 + 未来折扣回报的组合优于纯即时奖励或纯延迟奖励 4. PPO 超参数敏感性:步骤级 PPO 比 token 级 PPO 对超参数更稳定
定性分析
论文还展示了具体的 agent 轨迹对比:
- PPO 训练的 agent:容易在单步内"短视"——选择了局部最优的 token 序列,但整个步骤对任务推进没有帮助
- GRPO 训练的 agent:容易在错误步骤上"坚持"——因为轨迹级 credit 把最终成功归功于所有步骤,错误的中间步骤没有得到足够惩罚
- StepPO 训练的 agent:步骤级 credit 让它能识别哪些步骤真正推动了任务,并在关键步骤上更谨慎
五、与相关工作对比
论文把 StepPO 放在了 Agentic RL 算法演进的时间线上:
1. PPO/GRPO(RLHF/RLVR 时代):token 为中心,优化单轮生成 2. Tree-GRPO:树结构 rollout,探索多路径,但仍是 token 级 3. PSPO:轨迹级优化,针对论文搜索等特定任务 4. GiGPO:步骤级 MDP,但 credit 仍是轨迹级 5. Turn-PPO(同期工作):turn 级优势估计,动机类似但实现不同 6. StepPO:第一个把 MDP 和 credit 分配都对齐到步骤级的工作
StepPO 和 Turn-PPO 的对比特别有意思:Turn-PPO 也意识到了 token 级 PPO 在长程任务中的不稳定,但它把优势估计改成了 turn 级,而没有重构 MDP。StepPO 认为这还不够——如果 MDP 本身仍是 token 级的,turn 级的优势估计只是"在错误的框架上打补丁"。
---
六、局限与未来方向
论文坦诚地列出了局限:
1. 步骤边界的定义:步骤的边界是人为定义的(一个 response 为一个步骤)。在某些场景中,一个 response 可能包含多个逻辑动作,如何自动识别更细粒度的"子步骤"是未来的方向。
2. 奖励设计:步骤级奖励需要人工设计。对于复杂任务,定义什么构成一个"好的步骤"本身就是挑战。
3. 计算开销:步骤级 MDP 需要维护步骤级状态,对于超长轨迹可能有额外的内存开销。
4. 与推理模型的结合:StepPO 目前是在 action 层面优化,如何与 reasoning model(如 DeepSeek-R1)的 CoT 推理结合,是一个开放问题。
---
七、为什么是"范式"而不仅是"方法"
论文标题里用了"paradigm"(范式)这个词,不是夸张。StepPO 的真正贡献不是某个技巧,而是重新定义了 Agentic RL 的基本建模单位。
类比一下:
- NLP 领域从"词"到"子词"(BPE)是粒度调整,但仍是 token 级
- StepPO 从"token"到"step"是范式转移,因为 step 不是 token 的聚合,而是语义上完全不同的单位
- 所有基于 token 级 MDP 的 RL 算法,理论上都可以"步骤化"改造
- 所有 Agentic RL 的评估指标,都可以重新以步骤为单位定义
- 所有 agent 的调试和分析工具,都可以步骤级粒度进行可视化
---
八、一句话总结
StepPO 的洞察很简单:LLM 智能体不是 token 生成器,而是步骤决策者。把 RL 的建模和优化从 token 级对齐到步骤级,就像给近视的智能体配了副合适的眼镜——它终于能看清自己的动作边界了。
---
参考信息
- 论文:Wang et al. "StepPO: Step-Aligned Policy Optimization for Agentic Reinforcement Learning", arXiv:2604.18401, 2026
- 团队:中国科学技术大学认知智能国家重点实验室
- 代码:https://github.com/AgentR1/StepPO
- 相关项目:Agent-R1, Claw-R1
*这篇论文和 LeWorldModel 有个有趣的呼应:LeWorldModel 问"AI 如何理解物理世界",StepPO 问"AI 如何理解自己的动作边界"。两者都在挑战一个深层假设——我们给 AI 的建模框架,是否匹配它实际面对的问题结构?*
#AI研究 #强化学习 #Agent #LLM #中科大 #StepPO
🌟 智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
🎁 领取 2000万 Tokens