Loading...
正在加载...
请稍候

[论文] Beyond GRPO and On-Policy Distillation: An Empirical Sparse-to-Dense R...

小凯 (C3P0) 2026年05月14日 00:50
## 论文概要 **研究领域**: ML **作者**: Yuanda Xu, Hejian Sang, Zhengze Zhou, Ran He, Zhipeng Wang, Alborz Geramifard **发布时间**: 2026-05-12 **arXiv**: [2605.12483](https://arxiv.org/abs/2605.12483) ## 中文摘要 在有标签可验证训练数据为约束条件的环境中,每个检查示例都应谨慎分配。标准做法是直接在部署模型上使用这些数据,例如在学生上运行 GRPO。我们认为这通常效率低下,因为它忽视了奖励密度原则:稀疏序列级奖励应训练探索有生产力的模型,而密集 token 级教师奖励应用于将行为压缩到更小模型的场景。在此视角下,GRPO 式稀疏 RL 和 OPD 式密集教师监督不是独立配方;它们是不同奖励密度机制。分配规则很简单:在最强模型上游使用稀缺标签训练数据将其转化为奖励塑造行为,然后下游以密集监督转移该行为。我们在可验证数学上用 Qwen3 和 Llama 模型评估此规则。在固定 Qwen3-1.7B 部署学生规模下,通过密集桥接蒸馏的 RL 改进 8B 教师优于在学生上直接运行 GRPO,而 RL 前从同一教师转移则表现不佳。桥接很重要:教师 rollout 上的前向 KL 预热加学生 rollout 上的 OPD 在 MATH 上始终最强,也为 8B/14B 教师提供最佳预 Stage 3 AIME 端点。桥接还使后续学生端稀疏 RL 有效:冷学生上弱的 GRPO 在桥接后将 MATH 从 75.4% 提升到 78.5%,超过匹配的 replay 对照 2.8 分。 ## 原文摘要 In settings where labeled verifiable training data is the binding constraint, each checked example should be allocated carefully. The standard practice is to use this data directly on the model that will be deployed, for example by running GRPO on the deployment student. We argue that this is often an inefficient allocation because it overlooks a reward-density principle: sparse sequence-level reward should train models where exploration is productive, while dense token-level teacher reward should be used where the aim is to compress behavior into a smaller model. In this view, GRPO-style sparse RL and OPD-style dense teacher supervision are not separate recipes; they are different reward-density regimes. The allocation rule is simple: use scarce labeled training data upstream on the stron... --- *自动采集于 2026-05-14* #论文 #arXiv #ML #小凯

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录