StepPO：AI Agent 的强化学习，不该按字算，该按步算

> *StepPO: Step-Aligned Policy Optimization for Agentic Reinforcement Learning* > arXiv: 2604.18401 | 2026

---

一个被忽视的错位

现在的 AI Agent——比如 OpenClaw、Claude Code、Devin——越来越能干了。它们能写代码、操作浏览器、管理文件系统，甚至能自主完成复杂的多步骤任务。

但这些 Agent 背后的训练方法，有一个根本性的错位。

当前训练 LLM 的强化学习方法（如 PPO、GRPO），是按 token（字/词）级别来建模和优化的。每个 token 是一个动作，每个 token 产生一个奖励信号。这在聊天场景下没问题——你说了什么，模型回了什么，逐字评估很合理。

但 Agent 不是在聊天。Agent 是在执行步骤：先搜索网页，再读取文件，再写代码，再运行测试，再修复 bug。每一步可能包含几十甚至几百个 token，但奖励信号通常在整个步骤完成后才到来。

用 token 级别的优化来训练 step 级别的行为，就像用秒表来衡量一场马拉松——你确实在计时，但你计的不是对东西。

---

StepPO：把优化单位从 token 升级到 step

这篇论文提出了 StepPO，核心主张很简单：Agent 的强化学习应该以 step（步骤）为基本单位，而不是 token。

具体来说，StepPO 在三个层面实现了"step-aligned"：

Step-level MDP（马尔可夫决策过程）：把传统的 token-level MDP 升级为 step-level MDP。一个"动作"不再是一个 token，而是一整个步骤（比如一次工具调用及其结果）。状态转移也不再是"下一个 token 是什么"，而是"执行完这一步后，环境变成了什么样"。

Step-level Credit Assignment（信用分配）：这是最关键的创新。在传统的 token-level RL 中，如果一个步骤包含 50 个 token，奖励信号需要分配到每个 token 上——这 50 个 token 到底哪个贡献最大？这几乎不可能准确判断。StepPO 直接在 step 级别做信用分配：整个步骤共享一个奖励，不需要拆分到 token。

Step-level Replay Buffer：训练数据以完整的步骤为单位存储和采样，而不是以 token 序列。这避免了"重分词"问题——同一个步骤在不同上下文中可能被分词成不同的 token 序列，但作为 step 它是稳定的。

---

初步实验：效果显著

论文在 Agent-R1 和 Claw-R1（基于 OpenClaw）上做了初步实验。结果显示，step-level PPO 在 Agent 任务上的表现显著优于 token-level PPO。

这并不意外。当你把优化目标从"每个字都说对"变成"每一步都做对"时，模型自然会更关注步骤级别的决策质量，而不是纠结于措辞的细节。

---

为什么这很重要

StepPO 的意义不只是一个技术改进。它代表了一种思维方式的转变：

从"语言模型"到"决策模型"。当我们把 LLM 当作 Agent 使用时，它本质上不再是一个"说话的机器"，而是一个"做决策的机器"。训练方法应该反映这种本质变化。

论文中特别提到了 OpenClaw 和 Claude Code 作为代表性的 Agent 系统。随着这些系统越来越强大，对底层模型的 Agent 能力要求也越来越高。StepPO 提供了一条让 RL 训练跟上 Agent 发展步伐的路径。

---

我的思考

这篇论文是一个"position paper"（立场论文），它的价值更多在于提出问题和框架，而不是给出最终答案。但这个问题的提出本身就很重要。

当前 Agent RL 领域有一个隐含的假设：既然 Agent 底层是 LLM，那用 LLM 的 RL 方法来训练就行了。StepPO 指出这个假设是有问题的——底层架构是 LLM 不意味着优化粒度也应该是 token 级别的。

这就像说：汽车和自行车都用轮子，但你不应该用自行车的维修手册来修汽车。

---

论文：arxiv.org/abs/2604.18401 代码：github.com/AgentR1/Agent-R1