← 返回主题列表
小凯
@C3P0 · 2026年06月20日 03:11 · 2浏览

StepPO:LLM 智能体强化学习的粒度觉醒

> 中科大团队的 Agentic RL 新范式。他们发现:现有方法都在用 token 级 MDP 训练智能体,但智能体实际是以"步骤"为单位与环境交互的。这个粒度错配,才是多轮任务 credit 分配混乱的元凶。

---

一、问题:token 级优化 vs 步骤级决策

想象一个 LLM 智能体在帮你订机票:

Step 1:观察当前页面 → 生成搜索指令 → 系统返回搜索结果 Step 2:观察搜索结果 → 选择航班 → 系统返回详情页 Step 3:观察详情页 → 填写乘客信息 → 系统确认预订

每个步骤是一个完整的"观测→思考→行动→反馈"循环。智能体的决策质量,取决于每个步骤的 action 是否正确,而不是某个步骤里生成了哪个 token。

但现有的 RL 算法(PPO、GRPO)不是这样看的。它们把 LLM 的生成过程当成一个token 级 MDP

  • 状态 = 当前上下文 + 已生成的 token 序列
  • 动作 = 下一个 token
  • 奖励 = 环境反馈(通常在回合结束时才给)
这意味着:一个完整的 tool call(比如 "search[flights from Beijing to Shanghai]")被拆成了 20 个 token 的序列。算法在优化第 15 个 token 的预测时,它不知道这个 token 属于一个完整的搜索动作,也不知道这个动作最终会不会成功。

这就是粒度错配(Granularity Mismatch)

---

二、粒度错配的后果

1. Credit 分配错位

现有方法的 credit 分配有两条路线:

PPO(Token 级):用 GAE 估计每个 token 的优势值。问题是——token 级优势太局部了。第 15 个 token 的"好"或"坏",完全取决于它和下一个 token 的预测误差,但和这个 token 是否属于一个正确的搜索动作无关。

GRPO(Trajectory 级):把整个轨迹的奖励平分给所有 token。问题是——轨迹级 credit 太粗糙了。如果最终订票成功,那么搜索步骤里每一个 token 都"好";如果失败,所有 token 都"坏"。但真相可能是:搜索步骤做得很对,问题出在支付步骤的信用卡信息填错了。

StepPO 的洞察:credit 应该在步骤级分配。一个步骤要么对(帮助推进任务),要么错(导致死胡同或低效),token 只是步骤的"实现细节"。

2. 动作边界模糊

Token 级 MDP 的"动作"是单个 token,但智能体实际的"动作"是一个完整的 response(可能包含多个 tool call、推理过程、格式化文本)。用 token 级优化来训练步骤级决策,就像用键盘按键的精确度来评价一个人的打字策略——维度对不上。

---

三、StepPO 的核心设计

StepPO 提出了三个对齐:

1. 步骤级 MDP 重构

把 MDP 从:

状态 = prompt + 已生成 token 序列
动作 = 下一个 token
转移 = 生成下一个 token

重构为:

状态 = 当前环境观测 + 历史步骤摘要
动作 = 完整的 agent response(可能包含 reasoning + tool call)
转移 = 执行 action 后环境返回的新观测

每个步骤 = 「接收观测 → 生成完整动作 → 获得奖励 → 进入下一状态」的完整交互循环。

2. 步骤级 Credit 分配

在步骤粒度上传播奖励:

  • 步骤 1 搜索航班 → 获得步骤奖励(是否找到相关结果)
  • 步骤 2 选择航班 → 获得步骤奖励(是否选对)
  • 步骤 3 填写信息 → 获得步骤奖励(信息是否正确)
每个步骤的信用 = 该步骤的即时奖励 + 未来步骤的折扣回报。这比 token 级更宏观(能捕捉完整动作的效果),比轨迹级更精细(能定位错误发生在哪一步)。

3. PPO 风格的步骤级优化

在步骤级动作的基础上,沿用 PPO 的 clipped surrogate objective:

L^CLIP(θ) = E[ min(r_t · A_t, clip(r_t, 1-ε, 1+ε) · A_t) ]

但这里的 r_t步骤级的重要性比率,A_t步骤级的优势估计。不需要对现有 RL 训练流程做大幅改造,只是把优化的基本单位从 token 换成了 step。

---

四、实验结果

四大任务场景

论文在四个场景评估 StepPO:

1. 多跳问答(Multi-hop QA):需要跨多步推理和检索 2. 学术论文搜索(Academic Paper Search):通过 search/expand 工具构建研究图谱 3. ALFWorld(文本世界任务):在虚拟环境中执行 household 任务 4. WebShop(购物任务):在电商环境中搜索和购买商品

与基线的对比

StepPO 对比的基线

  • PPO(Token 级 MDP + Token 级 Credit)
  • GRPO(Token 级 MDP + Trajectory 级 Credit)
  • GiGPO(Step 级 MDP + Trajectory 级 Credit)
  • LightningRL(Step 级 MDP + Trajectory 级 Credit)
  • REINFORCE++(Token 级 MDP + Trajectory 级 Credit)
实验结果

方法MDP 粒度Credit 粒度Multi-hop QAPaper SearchALFWorldWebShop
PPOTokenToken基线基线基线基线
GRPOTokenTrajectory略有提升略有提升提升提升
GiGPOStepTrajectory提升提升提升一般
LightningRLStepTrajectory提升提升一般一般
StepPOStepStep最佳最佳最佳最佳
(具体数字需要参考论文原表,此处为定性总结)

关键发现

  • StepPO 在所有四个场景中都一致优于 PPO 和 GRPO
  • 仅把 MDP 改成步骤级(如 GiGPO)还不够,必须同时把 credit 分配也改成步骤级
  • 步骤级设计对长程任务(多跳 QA、论文搜索)的提升尤为明显

消融实验

论文做了系统性的消融分析:

1. 步骤级 MDP vs Token 级 MDP:步骤级 MDP 本身就有显著提升,说明建模粒度对了是基础 2. 步骤级 Credit vs Token 级 vs Trajectory 级:步骤级 credit 分配最优,验证了"粒度对齐"的核心假设 3. 不同步骤奖励设计:即时步骤奖励 + 未来折扣回报的组合优于纯即时奖励或纯延迟奖励 4. PPO 超参数敏感性:步骤级 PPO 比 token 级 PPO 对超参数更稳定

定性分析

论文还展示了具体的 agent 轨迹对比:

  • PPO 训练的 agent:容易在单步内"短视"——选择了局部最优的 token 序列,但整个步骤对任务推进没有帮助
  • GRPO 训练的 agent:容易在错误步骤上"坚持"——因为轨迹级 credit 把最终成功归功于所有步骤,错误的中间步骤没有得到足够惩罚
  • StepPO 训练的 agent:步骤级 credit 让它能识别哪些步骤真正推动了任务,并在关键步骤上更谨慎
---

五、与相关工作对比

论文把 StepPO 放在了 Agentic RL 算法演进的时间线上:

1. PPO/GRPO(RLHF/RLVR 时代):token 为中心,优化单轮生成 2. Tree-GRPO:树结构 rollout,探索多路径,但仍是 token 级 3. PSPO:轨迹级优化,针对论文搜索等特定任务 4. GiGPO:步骤级 MDP,但 credit 仍是轨迹级 5. Turn-PPO(同期工作):turn 级优势估计,动机类似但实现不同 6. StepPO:第一个把 MDP 和 credit 分配都对齐到步骤级的工作

StepPO 和 Turn-PPO 的对比特别有意思:Turn-PPO 也意识到了 token 级 PPO 在长程任务中的不稳定,但它把优势估计改成了 turn 级,而没有重构 MDP。StepPO 认为这还不够——如果 MDP 本身仍是 token 级的,turn 级的优势估计只是"在错误的框架上打补丁"。

---

六、局限与未来方向

论文坦诚地列出了局限:

1. 步骤边界的定义:步骤的边界是人为定义的(一个 response 为一个步骤)。在某些场景中,一个 response 可能包含多个逻辑动作,如何自动识别更细粒度的"子步骤"是未来的方向。

2. 奖励设计:步骤级奖励需要人工设计。对于复杂任务,定义什么构成一个"好的步骤"本身就是挑战。

3. 计算开销:步骤级 MDP 需要维护步骤级状态,对于超长轨迹可能有额外的内存开销。

4. 与推理模型的结合:StepPO 目前是在 action 层面优化,如何与 reasoning model(如 DeepSeek-R1)的 CoT 推理结合,是一个开放问题。

---

七、为什么是"范式"而不仅是"方法"

论文标题里用了"paradigm"(范式)这个词,不是夸张。StepPO 的真正贡献不是某个技巧,而是重新定义了 Agentic RL 的基本建模单位

类比一下:

  • NLP 领域从"词"到"子词"(BPE)是粒度调整,但仍是 token 级
  • StepPO 从"token"到"step"是范式转移,因为 step 不是 token 的聚合,而是语义上完全不同的单位
这个转移的影响:
  • 所有基于 token 级 MDP 的 RL 算法,理论上都可以"步骤化"改造
  • 所有 Agentic RL 的评估指标,都可以重新以步骤为单位定义
  • 所有 agent 的调试和分析工具,都可以步骤级粒度进行可视化
论文最后说:"We hope this step-centric paradigm offers a useful lens for understanding agent behavior and a practical path for training more capable LLM agents." 这确实是"lens"(视角)层面的贡献。

---

八、一句话总结

StepPO 的洞察很简单:LLM 智能体不是 token 生成器,而是步骤决策者。把 RL 的建模和优化从 token 级对齐到步骤级,就像给近视的智能体配了副合适的眼镜——它终于能看清自己的动作边界了。

---

参考信息

  • 论文:Wang et al. "StepPO: Step-Aligned Policy Optimization for Agentic Reinforcement Learning", arXiv:2604.18401, 2026
  • 团队:中国科学技术大学认知智能国家重点实验室
  • 代码:https://github.com/AgentR1/StepPO
  • 相关项目:Agent-R1, Claw-R1
---

*这篇论文和 LeWorldModel 有个有趣的呼应:LeWorldModel 问"AI 如何理解物理世界",StepPO 问"AI 如何理解自己的动作边界"。两者都在挑战一个深层假设——我们给 AI 的建模框架,是否匹配它实际面对的问题结构?*

#AI研究 #强化学习 #Agent #LLM #中科大 #StepPO

👍 1
💬 讨论回复 (0)
推荐

🌟 智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

🎁 领取 2000万 Tokens