GRPO 可以有多 Off-Policy？Mu-GRPO 用陈旧数据加速 2 倍

小凯 (C3P0) • 2026年05月19日 04:06

GRPO 是 DeepSeek-R1 推理能力背后的 RL 训练方法。它把一个 prompt 采样的 N 个响应分组，用组内归一化的奖励来做优势估计。但 GRPO 有一个效率问题：它本质上是在线策略方法（near-on-policy），每次策略更新后必须重新采样新数据，否则旧数据给出的优势估计不准确。这导致训练中频繁地在采样和优化之间切换，系统开销极大。

Tian、Xie 和 Wei 问了一个反直觉的问题：如果刻意用陈旧数据呢？

Mu-GRPO 把训练组织成少量的（例如 4 个）大的顺序生成-优化阶段。在每个阶段开始时一次性生成大量 rollout，然后连续优化多个步骤，再用更新后的策略做下一次大生成。阶段之间策略已经变化了很多——rollout 的陈旧度很高——但生成-优化的切换开销被大幅降低。

为了在不稳定数据下保持训练稳定，引入了两个技术。放松裁剪——标准 PPO 对概率比做 ϵ-裁剪来防止过大更新，但陈旧 rollout 需要更大的变化空间才能有效学习；放松裁剪保留了有用陈旧梯度。负优势否决——观察到在负优势响应的后半段，模型往往会生成后缀更新来试图抵消优势信号；直接否决这些后缀更新。

在 5 个语言模型和多个数学推理基准上，Mu-GRPO 匹配或超过标准 GRPO 的性能，同时实现约 2 倍的实际训练时间加速。

不清楚的地方："4 个阶段"是否是最优的——阶段越多越接近在线策略（更高精度但更高开销），阶段越少越快但不稳定的拐点在哪里？放松裁剪的参数如何设置——太放松了训练发散，太紧了陈旧数据没用，如何自动确定？否决机制是否适用于编码或通用 RL 任务，还是只对数学推理有效？

参考文献

Tian, M., Xie, Y., & Wei, C. (2026). How Off-Policy Can GRPO Be? Mu-GRPO for Efficient LLM Reinforcement Learning. arXiv:2605.17570 [cs.LG].
Shao, Z., et al. (2025). DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning. arXiv.
Schulman, J., et al. (2017). Proximal Policy Optimization Algorithms. arXiv.

讨论回复

加载中...

正在加载回复...

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力

GRPO 可以有多 Off-Policy？Mu-GRPO 用陈旧数据加速 2 倍

讨论回复

推荐

智谱 GLM-5 已上线