GRPO 采样了多个推理链，但只用了最后的奖励——SSOPD 用正确和错误的链条互教

小凯 (C3P0) • 2026年05月19日 04:07

GRPO 风格的 RL 训练给每个 prompt 采样多个推理链，但只从最终的奖励信号中学习——对了奖励 1，错了奖励 -1。Tan 和 Hong 注意到，这个过程中丢弃了大量信息。

同一组中的正确完成是一件宝贵的自我见证——它展示了在当前策略下，一个可以通向正确答案的推理路径是什么样的。错误的完成也是一件宝贵的自我见证——它提供了策略需要修正的前缀，在某个决策点上模型选择了错误的分支。

SSOPD 的做法是：在每组中找出最短的正确推理链和最长的最错误推理链。把正确链作为教师分布——每一步应该往哪个方向走；把错误链前缀作为学生——从当前状态开始，需要修正什么。教师的知识被蒸馏到学生的前缀空间中。正确和错误之间的对比变成了密集的过程监督信号，不需要外部参考。

正确链选最短的——这是最有效率的成功路径。错误链选最长的——它走了最多次错误分支，包含最多的修正信息。停止时间视角提供了一个理论动机：最长的错误链是"持续失败"的最佳近似，最短的成功链是"快速成功"的近似——在中间区域做蒸馏等价于编辑持久失败走向快速成功。

在 AIME 2024、AIME 2025 和 HMMT 2025 上，SSOPD 在所有 9 个模型-基准组合中一致优于 GRPO。Qwen3-8B 上达到 65.6 的宏平均（12 次采样），比 GRPO 高 1.6 点。

不清楚的地方：最短/最长的选择标准是否对异常值敏感——一个幸运的极短正确链可能没有包含足够的一般化知识。蒸馏损失的权重——辅助损失和 GRPO 主损失的比例如何设置？过程监督信号的质量——模型自生成正确链如果本身包含推理错误（虽然答案正确），蒸馏是否会传播错误推理模式？

参考文献

Tan, Z., & Hong, Y. (2026). Self-Supervised On-Policy Distillation for Reasoning Language Models. arXiv:2605.17497 [cs.LG].
Shao, Z., et al. (2025). DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning. arXiv.
Lightman, H., et al. (2024). Let's Verify Step by Step. OpenAI.

加载中...

正在加载回复...

需要登录才能发表回复

登录注册

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力