Self-Distilled RLVR：让自蒸馏做GRPO的"信用分配官"——中科院团队的Token级精细调控框架

> 论文：Self-Distilled RLVR > 作者：Chenxu Yang, Chuanyu Qin, Qingyi Si 等 > 机构：中国科学院信息工程研究所、中国科学院大学、Microsoft Research Asia、京东集团 > 链接：https://arxiv.org/abs/2604.03128 > 标签：#RLVR #自蒸馏 #信用分配 #GRPO #多模态推理 #中科院 #MSRA

---

一、问题：GRPO的"大锅饭"奖励

GRPO火了，但它有个老毛病——信用分配不清。

模型生成一条包含几百个token的推理链， verifier 只给整句话打个0或1。这意味着：

那个导致正确答案的关键推理步骤，和末尾的"Therefore, the answer is..."格式占位符，获得完全相同的奖励权重
错误回答里，真正出错的那一步，和前面的正确铺垫，被同等惩罚

这种序列级稀疏信号让长链式推理的收敛效率大打折扣。

---

二、OPSD的陷阱：看似完美的方案，为何训练后期必然翻车？

2.1 同策略自蒸馏（OPSD）的设计

社区提出的 OPSD 方案看起来优雅：

同一模型，同时充当教师和学生
教师额外获得特权信息（如标准答案、参考推理步骤）
教师评估学生输出的每个token，提供密集的logits监督信号

2.2 但实际训练出现诡异现象

论文 Figure 3 展示的三条曲线令人警醒：

现象	说明
泄露频率	模型引用"reference solution"的频率随训练单调上升
验证集准确率	前10-20步达到峰值后持续下降
教师-学生KL散度	初期短暂下降后陷入停滞，维持固定水平

典型泄露输出（Figure 2）： > "Given that the reference solution uses 9 values, I will assume..." > "But wait, the reference solution says 'No', which contradicts my calculation..."

2.3 理论诊断：信息不对称的结构性缺陷

论文给出了严格的理论证明（Theorem 1）：

OPSD的目标函数可分解为：

$$ L_OPSD = L* + I(Y_t; R | X, Y_{

L*：理想边际匹配目标（可优化）

I(Y_t; R | X, Y_{：条件互信息，与模型参数θ无关的不可约间隙



核心矛盾：OPSD强制学生（条件独立参数化）去匹配教师（条件依赖分布），这是一个病态问题（ill-posed）。
梯度层面的诊断（Proposition 1）：
$$
g(θ; r) = g*(θ) + δ(θ; r)
$$
g*：良性边际匹配梯度
δ：r-特定偏差，方差正比于教师对特权信息的依赖程度

两阶段动态：
1. 早期：‖g*‖ ≫ ‖δ‖，模型快速学习通用推理 → 准确率陡升
2. 后期：$P_S → P̄_T，g* → 0$，偏差δ主导 → 模型开始编码"x → r"的相关性，泄露爆发
---
三、RLSD：方向与幅度的解耦艺术
3.1 核心洞察
> "Update direction and update magnitude have asymmetric requirements."
信号类型 要求 来源
方向 稀疏但必须可靠 环境奖励（verifier）
幅度 越密集越好 自蒸馏证据比
3.2 三步算法
Step 1：特权信息增益
$$
Δ_t = sg(log P^T(y_t) - log P^S(y_t))
$$
同一模型，两种输入条件
sg = stop-gradient，确保Δ_t纯为权重信号

Step 2：方向感知证据重加权
$$
w_t = exp(sign(A) · Δ_t) = (P^T(y_t) / P^S(y_t))^sign(A)
$$
Bayesian解释：
P^S(y_t) = 先验信念（仅基于问题x）
P^T(y_t) = 后验信念（观察到特权信息r后）
比值 = 贝叶斯证据比，衡量生成y_t使r与轨迹一致的程度

符号机制：
A > 0（正确回答）：w_t = P^T/P^S → 教师支持的token获更大权重
A < 0（错误回答）：w_t = P^S/P^T → 教师反对的token获更大惩罚

> 关键保证：exp(·) > 0 确保 w_t > 0，因此 sign(Â_t) = sign(A)
> 环境奖励保留对更新方向的独占权；教师只调节幅度。
Step 3：裁剪信用分配
$$
Â_t = A · clip(w_t, 1-ε_w, 1+ε_w)
$$
ε_w = 0.2：限制单token的最大影响力
线性插值λ ∈ [0,1]，前50步从0.5衰减到0

3.3 完整目标函数
$$
L_RLSD(θ) = E[(1/G) Σ_i (1/|y^(i)|) Σ_t min(w_t A^(i), clip(w_t,...) A^(i))]
$$
计算开销：每回答仅增加1次前向传播（相比rollout生成可忽略）
---
四、实验：Qwen3-VL-8B上的多模态推理
4.1 设置
基础模型：Qwen3-VL-8B-Instruct
训练数据：MMFineReason-123K（难度过滤子集，Qwen3-VL-4B-Thinking 4次rollout全失败的样本）
硬件：4节点 × 8 × NVIDIA H200 140GB

4.2 五大Benchmark结果（Table 2）
Method MMMU MathVista MathVision ZeroBench WeMath Avg
Base LLM 62.44 73.80 47.37 19.76 54.10 51.49
GRPO 65.11 76.20 48.82 22.60 56.57 53.86
OPSD 63.82 75.10 47.53 21.06 54.95 52.49
SDPO 65.11 74.00 47.27 25.15 52.19 52.74
GRPO+OPSD 63.22 75.90 48.52 22.16 54.76 52.91
RLSD (Ours) 67.22 78.10 52.73 24.85 58.00 56.18
关键发现：
RLSD平均准确率最高，超越Base LLM +4.69%，超越GRPO +2.32%
数学推理提升最显著：MathVista +1.9%，MathVision +3.91%
OPSD和SDPO均低于GRPO，验证理论分析（泄露导致退化）
GRPO+OPSD线性组合失败（+3.27% gap），证明简单加法不可行

4.3 训练动态（Figure 5）
指标 观察 含义
训练奖励 RLSD初始上升更陡，收敛更高；OPSD后期崩溃 RLSD更快收敛+更稳定
训练熵 GRPO快速熵崩溃；RLSD维持更高熵 RLSD选择性强化关键token，不过度压制探索
裁剪比例 稳定在3%-6% 信任区域约束有效运作
4.4 Token级信用可视化（Figure 6）
正确轨迹（立方体计数）：
高信用（绿色）：识别关键黄色立方体、执行最终减法
低信用（红色）："Looking at the image, I see..."等通用叙述

错误轨迹（条形图）：
高惩罚（深红）：误读关系"3x=28.5"、错误答案"x=9.5"
低惩罚（浅红）：中性设置token

---
五、理论保证：为什么RLSD不会泄露
5.1 统一视角
方法 Token级优势 方向来源 幅度来源
GRPO A（统一） 环境奖励 无（均匀）
OPSD Δ_t = log P^T - log P^S 教师偏好 教师偏好
RLSD A · clip(w_t, ...) 环境奖励 教师证据比
5.2 零泄露保证
RLSD满足不可能三角的所有三个条件（Appendix A.6）：
✅ 目标稳定性（objective stability）
✅ 持续改进（sustained improvement）
✅ 零泄露训练（zero-leakage training）

核心机制：将P^T/P^S从梯度方向移至梯度幅度。由于exp(·) > 0，权重w_t永远不会翻转更新方向的符号。
---
六、判断：这不是新范式，是一次漂亮的缝合
RLSD的聪明之处，在于它没有发明任何新组件：
GRPO的序列级优势？保留。
OPSD的自蒸馏信号？保留。
PPO的裁剪机制？保留。

它只是重新排列了这些组件的职能分工：
环境奖励：继续做法官，判对错
自蒸馏信号：不做法官，改做书记员——记录每个token该领多少赏/该挨多少罚

这不是"用蒸馏替代RL"，也不是"用RL增强蒸馏"。这是让蒸馏做RL的副驾驶——主驾（方向）还是环境奖励，副驾驶（幅度）帮你看得更细。
---
七、局限与延伸
局限：
1. 仅在Qwen3-VL-8B上验证，其他架构（如纯文本LLM）的泛化性待验证
2. 特权信息限定为"标准答案"，更复杂的特权形式（如中间推理步骤）未探索
3. 额外前向传播虽可忽略，但超大规模模型下的绝对开销仍需评估
后续工作：
arXiv:2605.10781（Rebellious Student）已将RLSD的权重机制反向使用，用于推理探索
理论框架可延伸至其他需要细粒度信用分配的领域（如多轮对话、工具调用链）

---
参考论文：  
Yang, C., Qin, C., Si, Q., et al. (2026). Self-Distilled RLVR. arXiv:2604.03128.  
中国科学院信息工程研究所 / 中国科学院大学 / Microsoft Research Asia / 京东集团
#深度研究 #RLVR #自蒸馏 #GRPO #信用分配 #多模态推理 #中科院 #MSRA #Qwen #小凯

信号类型	要求	来源
方向	稀疏但必须可靠	环境奖励（verifier）
幅度	越密集越好	自蒸馏证据比

Method	MMMU	MathVista	MathVision	ZeroBench	WeMath	Avg
Base LLM	62.44	73.80	47.37	19.76	54.10	51.49
GRPO	65.11	76.20	48.82	22.60	56.57	53.86
OPSD	63.82	75.10	47.53	21.06	54.95	52.49
SDPO	65.11	74.00	47.27	25.15	52.19	52.74
GRPO+OPSD	63.22	75.90	48.52	22.16	54.76	52.91
RLSD (Ours)	67.22	78.10	52.73	24.85	58.00	56.18

指标	观察	含义
训练奖励	RLSD初始上升更陡，收敛更高；OPSD后期崩溃	RLSD更快收敛+更稳定
训练熵	GRPO快速熵崩溃；RLSD维持更高熵	RLSD选择性强化关键token，不过度压制探索
裁剪比例	稳定在3%-6%	信任区域约束有效运作

方法	Token级优势	方向来源	幅度来源
GRPO	A（统一）	环境奖励	无（均匀）
OPSD	Δ_t = log P^T - log P^S	教师偏好	教师偏好
RLSD	A · clip(w_t, ...)	环境奖励	教师证据比

Self-Distilled RLVR：让自蒸馏做GRPO的"信用分配官"——中科院团队的Token级精细调控框架

一、问题：GRPO的"大锅饭"奖励

二、OPSD的陷阱：看似完美的方案，为何训练后期必然翻车？

2.1 同策略自蒸馏（OPSD）的设计

2.2 但实际训练出现诡异现象

2.3 理论诊断：信息不对称的结构性缺陷

三、RLSD：方向与幅度的解耦艺术

3.1 核心洞察

3.2 三步算法

3.3 完整目标函数

四、实验：Qwen3-VL-8B上的多模态推理

4.1 设置

4.2 五大Benchmark结果（Table 2）

4.3 训练动态（Figure 5）

4.4 Token级信用可视化（Figure 6）

五、理论保证：为什么RLSD不会泄露

5.1 统一视角

5.2 零泄露保证

六、判断：这不是新范式，是一次漂亮的缝合

七、局限与延伸

🌟 智谱 GLM-5 已上线