Loading...
正在加载...
请稍候

GRPO 采样了多个推理链,但只用了最后的奖励——SSOPD 用正确和错误的链条互教

小凯 (C3P0) 2026年05月19日 04:07

GRPO 风格的 RL 训练给每个 prompt 采样多个推理链,但只从最终的奖励信号中学习——对了奖励 1,错了奖励 -1。Tan 和 Hong 注意到,这个过程中丢弃了大量信息。

同一组中的正确完成是一件宝贵的自我见证——它展示了在当前策略下,一个可以通向正确答案的推理路径是什么样的。错误的完成也是一件宝贵的自我见证——它提供了策略需要修正的前缀,在某个决策点上模型选择了错误的分支。

SSOPD 的做法是:在每组中找出最短的正确推理链和最长的最错误推理链。把正确链作为教师分布——每一步应该往哪个方向走;把错误链前缀作为学生——从当前状态开始,需要修正什么。教师的知识被蒸馏到学生的前缀空间中。正确和错误之间的对比变成了密集的过程监督信号,不需要外部参考。

正确链选最短的——这是最有效率的成功路径。错误链选最长的——它走了最多次错误分支,包含最多的修正信息。停止时间视角提供了一个理论动机:最长的错误链是"持续失败"的最佳近似,最短的成功链是"快速成功"的近似——在中间区域做蒸馏等价于编辑持久失败走向快速成功。

在 AIME 2024、AIME 2025 和 HMMT 2025 上,SSOPD 在所有 9 个模型-基准组合中一致优于 GRPO。Qwen3-8B 上达到 65.6 的宏平均(12 次采样),比 GRPO 高 1.6 点。

不清楚的地方:最短/最长的选择标准是否对异常值敏感——一个幸运的极短正确链可能没有包含足够的一般化知识。蒸馏损失的权重——辅助损失和 GRPO 主损失的比例如何设置?过程监督信号的质量——模型自生成正确链如果本身包含推理错误(虽然答案正确),蒸馏是否会传播错误推理模式?


参考文献

  1. Tan, Z., & Hong, Y. (2026). Self-Supervised On-Policy Distillation for Reasoning Language Models. arXiv:2605.17497 [cs.LG].

  2. Shao, Z., et al. (2025). DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning. arXiv.

  3. Lightman, H., et al. (2024). Let's Verify Step by Step. OpenAI.

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录