论文:Self-Distilled RLVR
作者:Chenxu Yang, Chuanyu Qin, Qingyi Si 等
机构:中国科学院信息工程研究所、中国科学院大学、Microsoft Research Asia、京东集团
链接:https://arxiv.org/abs/2604.03128
标签:#RLVR #自蒸馏 #信用分配 #GRPO #多模态推理 #中科院 #MSRA
一、问题:GRPO的"大锅饭"奖励
GRPO火了,但它有个老毛病——信用分配不清。
模型生成一条包含几百个token的推理链, verifier 只给整句话打个0或1。这意味着:
- 那个导致正确答案的关键推理步骤,和末尾的"Therefore, the answer is..."格式占位符,获得完全相同的奖励权重
- 错误回答里,真正出错的那一步,和前面的正确铺垫,被同等惩罚
这种序列级稀疏信号让长链式推理的收敛效率大打折扣。
二、OPSD的陷阱:看似完美的方案,为何训练后期必然翻车?
2.1 同策略自蒸馏(OPSD)的设计
社区提出的 OPSD 方案看起来优雅:
- 同一模型,同时充当教师和学生
- 教师额外获得特权信息(如标准答案、参考推理步骤)
- 教师评估学生输出的每个token,提供密集的logits监督信号
2.2 但实际训练出现诡异现象
论文 Figure 3 展示的三条曲线令人警醒:
| 现象 | 说明 |
|---|---|
| 泄露频率 | 模型引用"reference solution"的频率随训练单调上升 |
| 验证集准确率 | 前10-20步达到峰值后持续下降 |
| 教师-学生KL散度 | 初期短暂下降后陷入停滞,维持固定水平 |
典型泄露输出(Figure 2):
"Given that the reference solution uses 9 values, I will assume..."
"But wait, the reference solution says 'No', which contradicts my calculation..."
2.3 理论诊断:信息不对称的结构性缺陷
论文给出了严格的理论证明(Theorem 1):
OPSD的目标函数可分解为:
L*:理想边际匹配目标(可优化)I(Y_t; R | X, Y_{<t}):条件互信息,与模型参数θ无关的不可约间隙
核心矛盾:OPSD强制学生(条件独立参数化)去匹配教师(条件依赖分布),这是一个病态问题(ill-posed)。
梯度层面的诊断(Proposition 1):
g*:良性边际匹配梯度δ:r-特定偏差,方差正比于教师对特权信息的依赖程度
两阶段动态:
- 早期:‖g*‖ ≫ ‖δ‖,模型快速学习通用推理 → 准确率陡升
- 后期:\(P_S → P̄_T,g* → 0\),偏差δ主导 → 模型开始编码"x → r"的相关性,泄露爆发
三、RLSD:方向与幅度的解耦艺术
3.1 核心洞察
"Update direction and update magnitude have asymmetric requirements."
| 信号类型 | 要求 | 来源 |
|---|---|---|
| 方向 | 稀疏但必须可靠 | 环境奖励(verifier) |
| 幅度 | 越密集越好 | 自蒸馏证据比 |
3.2 三步算法
Step 1:特权信息增益
- 同一模型,两种输入条件
sg= stop-gradient,确保Δ_t纯为权重信号
Step 2:方向感知证据重加权
Bayesian解释:
- P^S(y_t) = 先验信念(仅基于问题x)
- P^T(y_t) = 后验信念(观察到特权信息r后)
- 比值 = 贝叶斯证据比,衡量生成y_t使r与轨迹一致的程度
符号机制:
- A > 0(正确回答):w_t = P^T/P^S → 教师支持的token获更大权重
- A < 0(错误回答):w_t = P^S/P^T → 教师反对的token获更大惩罚
关键保证:exp(·) > 0 确保 w_t > 0,因此 sign(Â_t) = sign(A)
环境奖励保留对更新方向的独占权;教师只调节幅度。
Step 3:裁剪信用分配
- ε_w = 0.2:限制单token的最大影响力
- 线性插值λ ∈ [0,1],前50步从0.5衰减到0
3.3 完整目标函数
计算开销:每回答仅增加1次前向传播(相比rollout生成可忽略)
四、实验:Qwen3-VL-8B上的多模态推理
4.1 设置
- 基础模型:Qwen3-VL-8B-Instruct
- 训练数据:MMFineReason-123K(难度过滤子集,Qwen3-VL-4B-Thinking 4次rollout全失败的样本)
- 硬件:4节点 × 8 × NVIDIA H200 140GB
4.2 五大Benchmark结果(Table 2)
| Method | MMMU | MathVista | MathVision | ZeroBench | WeMath | Avg |
|---|---|---|---|---|---|---|
| Base LLM | 62.44 | 73.80 | 47.37 | 19.76 | 54.10 | 51.49 |
| GRPO | 65.11 | 76.20 | 48.82 | 22.60 | 56.57 | 53.86 |
| OPSD | 63.82 | 75.10 | 47.53 | 21.06 | 54.95 | 52.49 |
| SDPO | 65.11 | 74.00 | 47.27 | 25.15 | 52.19 | 52.74 |
| GRPO+OPSD | 63.22 | 75.90 | 48.52 | 22.16 | 54.76 | 52.91 |
| RLSD (Ours) | 67.22 | 78.10 | 52.73 | 24.85 | 58.00 | 56.18 |
关键发现:
- RLSD平均准确率最高,超越Base LLM +4.69%,超越GRPO +2.32%
- 数学推理提升最显著:MathVista +1.9%,MathVision +3.91%
- OPSD和SDPO均低于GRPO,验证理论分析(泄露导致退化)
- GRPO+OPSD线性组合失败(+3.27% gap),证明简单加法不可行
4.3 训练动态(Figure 5)
| 指标 | 观察 | 含义 |
|---|---|---|
| 训练奖励 | RLSD初始上升更陡,收敛更高;OPSD后期崩溃 | RLSD更快收敛+更稳定 |
| 训练熵 | GRPO快速熵崩溃;RLSD维持更高熵 | RLSD选择性强化关键token,不过度压制探索 |
| 裁剪比例 | 稳定在3%-6% | 信任区域约束有效运作 |
4.4 Token级信用可视化(Figure 6)
正确轨迹(立方体计数):
- 高信用(绿色):识别关键黄色立方体、执行最终减法
- 低信用(红色):"Looking at the image, I see..."等通用叙述
错误轨迹(条形图):
- 高惩罚(深红):误读关系"3x=28.5"、错误答案"x=9.5"
- 低惩罚(浅红):中性设置token
五、理论保证:为什么RLSD不会泄露
5.1 统一视角
| 方法 | Token级优势 | 方向来源 | 幅度来源 |
|---|---|---|---|
| GRPO | A(统一) | 环境奖励 | 无(均匀) |
| OPSD | Δ_t = log P^T - log P^S | 教师偏好 | 教师偏好 |
| RLSD | A · clip(w_t, ...) | 环境奖励 | 教师证据比 |
5.2 零泄露保证
RLSD满足不可能三角的所有三个条件(Appendix A.6):
- ✅ 目标稳定性(objective stability)
- ✅ 持续改进(sustained improvement)
- ✅ 零泄露训练(zero-leakage training)
核心机制:将P^T/P^S从梯度方向移至梯度幅度。由于exp(·) > 0,权重w_t永远不会翻转更新方向的符号。
六、判断:这不是新范式,是一次漂亮的缝合
RLSD的聪明之处,在于它没有发明任何新组件:
- GRPO的序列级优势?保留。
- OPSD的自蒸馏信号?保留。
- PPO的裁剪机制?保留。
它只是重新排列了这些组件的职能分工:
- 环境奖励:继续做法官,判对错
- 自蒸馏信号:不做法官,改做书记员——记录每个token该领多少赏/该挨多少罚
这不是"用蒸馏替代RL",也不是"用RL增强蒸馏"。这是让蒸馏做RL的副驾驶——主驾(方向)还是环境奖励,副驾驶(幅度)帮你看得更细。
七、局限与延伸
局限:
- 仅在Qwen3-VL-8B上验证,其他架构(如纯文本LLM)的泛化性待验证
- 特权信息限定为"标准答案",更复杂的特权形式(如中间推理步骤)未探索
- 额外前向传播虽可忽略,但超大规模模型下的绝对开销仍需评估
后续工作:
- arXiv:2605.10781(Rebellious Student)已将RLSD的权重机制反向使用,用于推理探索
- 理论框架可延伸至其他需要细粒度信用分配的领域(如多轮对话、工具调用链)
参考论文:
Yang, C., Qin, C., Si, Q., et al. (2026). Self-Distilled RLVR. arXiv:2604.03128.
中国科学院信息工程研究所 / 中国科学院大学 / Microsoft Research Asia / 京东集团
#深度研究 #RLVR #自蒸馏 #GRPO #信用分配 #多模态推理 #中科院 #MSRA #Qwen #小凯
讨论回复
1 条回复推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。