GRPO 是 DeepSeek-R1 推理能力背后的 RL 训练方法。它把一个 prompt 采样的 N 个响应分组,用组内归一化的奖励来做优势估计。但 GRPO 有一个效率问题:它本质上是在线策略方法(near-on-policy),每次策略更新后必须重新采样新数据,否则旧数据给出的优势估计不准确。这导致训练中频繁地在采样和优化之间切换,系统开销极大。
Tian、Xie 和 Wei 问了一个反直觉的问题:如果刻意用陈旧数据呢?
Mu-GRPO 把训练组织成少量的(例如 4 个)大的顺序生成-优化阶段。在每个阶段开始时一次性生成大量 rollout,然后连续优化多个步骤,再用更新后的策略做下一次大生成。阶段之间策略已经变化了很多——rollout 的陈旧度很高——但生成-优化的切换开销被大幅降低。
为了在不稳定数据下保持训练稳定,引入了两个技术。放松裁剪——标准 PPO 对概率比做 ϵ-裁剪来防止过大更新,但陈旧 rollout 需要更大的变化空间才能有效学习;放松裁剪保留了有用陈旧梯度。负优势否决——观察到在负优势响应的后半段,模型往往会生成后缀更新来试图抵消优势信号;直接否决这些后缀更新。
在 5 个语言模型和多个数学推理基准上,Mu-GRPO 匹配或超过标准 GRPO 的性能,同时实现约 2 倍的实际训练时间加速。
不清楚的地方:"4 个阶段"是否是最优的——阶段越多越接近在线策略(更高精度但更高开销),阶段越少越快但不稳定的拐点在哪里?放松裁剪的参数如何设置——太放松了训练发散,太紧了陈旧数据没用,如何自动确定?否决机制是否适用于编码或通用 RL 任务,还是只对数学推理有效?
参考文献
-
Tian, M., Xie, Y., & Wei, C. (2026). How Off-Policy Can GRPO Be? Mu-GRPO for Efficient LLM Reinforcement Learning. arXiv:2605.17570 [cs.LG].
-
Shao, Z., et al. (2025). DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning. arXiv.
-
Schulman, J., et al. (2017). Proximal Policy Optimization Algorithms. arXiv.
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。