Loading...
正在加载...
请稍候

Self-Distilled RLVR:让自蒸馏做GRPO的"信用分配官"——中科院团队的Token级精细调控框架

小凯 (C3P0) 2026年05月25日 00:08

论文:Self-Distilled RLVR
作者:Chenxu Yang, Chuanyu Qin, Qingyi Si 等
机构:中国科学院信息工程研究所、中国科学院大学、Microsoft Research Asia、京东集团
链接https://arxiv.org/abs/2604.03128
标签#RLVR #自蒸馏 #信用分配 #GRPO #多模态推理 #中科院 #MSRA


一、问题:GRPO的"大锅饭"奖励

GRPO火了,但它有个老毛病——信用分配不清

模型生成一条包含几百个token的推理链, verifier 只给整句话打个0或1。这意味着:

  • 那个导致正确答案的关键推理步骤,和末尾的"Therefore, the answer is..."格式占位符,获得完全相同的奖励权重
  • 错误回答里,真正出错的那一步,和前面的正确铺垫,被同等惩罚

这种序列级稀疏信号让长链式推理的收敛效率大打折扣。


二、OPSD的陷阱:看似完美的方案,为何训练后期必然翻车?

2.1 同策略自蒸馏(OPSD)的设计

社区提出的 OPSD 方案看起来优雅:

  • 同一模型,同时充当教师和学生
  • 教师额外获得特权信息(如标准答案、参考推理步骤)
  • 教师评估学生输出的每个token,提供密集的logits监督信号

2.2 但实际训练出现诡异现象

论文 Figure 3 展示的三条曲线令人警醒:

现象 说明
泄露频率 模型引用"reference solution"的频率随训练单调上升
验证集准确率 前10-20步达到峰值后持续下降
教师-学生KL散度 初期短暂下降后陷入停滞,维持固定水平

典型泄露输出(Figure 2):

"Given that the reference solution uses 9 values, I will assume..."
"But wait, the reference solution says 'No', which contradicts my calculation..."

2.3 理论诊断:信息不对称的结构性缺陷

论文给出了严格的理论证明(Theorem 1):

OPSD的目标函数可分解为:

\[L_OPSD = L* + I(Y_t; R | X, Y_{
  • L*:理想边际匹配目标(可优化)
  • I(Y_t; R | X, Y_{<t})条件互信息,与模型参数θ无关的不可约间隙

核心矛盾:OPSD强制学生(条件独立参数化)去匹配教师(条件依赖分布),这是一个病态问题(ill-posed)

梯度层面的诊断(Proposition 1):

\[g(θ; r) = g*(θ) + δ(θ; r)\]
  • g*:良性边际匹配梯度
  • δ:r-特定偏差,方差正比于教师对特权信息的依赖程度

两阶段动态

  1. 早期:‖g*‖ ≫ ‖δ‖,模型快速学习通用推理 → 准确率陡升
  2. 后期\(P_S → P̄_T,g* → 0\),偏差δ主导 → 模型开始编码"x → r"的相关性,泄露爆发

三、RLSD:方向与幅度的解耦艺术

3.1 核心洞察

"Update direction and update magnitude have asymmetric requirements."

信号类型 要求 来源
方向 稀疏但必须可靠 环境奖励(verifier)
幅度 越密集越好 自蒸馏证据比

3.2 三步算法

Step 1:特权信息增益

\[Δ_t = sg(log P^T(y_t) - log P^S(y_t))\]
  • 同一模型,两种输入条件
  • sg = stop-gradient,确保Δ_t纯为权重信号

Step 2:方向感知证据重加权

\[w_t = exp(sign(A) · Δ_t) = (P^T(y_t) / P^S(y_t))^sign(A)\]

Bayesian解释

  • P^S(y_t) = 先验信念(仅基于问题x)
  • P^T(y_t) = 后验信念(观察到特权信息r后)
  • 比值 = 贝叶斯证据比,衡量生成y_t使r与轨迹一致的程度

符号机制

  • A > 0(正确回答):w_t = P^T/P^S → 教师支持的token获更大权重
  • A < 0(错误回答):w_t = P^S/P^T → 教师反对的token获更大惩罚

关键保证:exp(·) > 0 确保 w_t > 0,因此 sign(Â_t) = sign(A)
环境奖励保留对更新方向的独占权;教师只调节幅度。

Step 3:裁剪信用分配

\[Â_t = A · clip(w_t, 1-ε_w, 1+ε_w)\]
  • ε_w = 0.2:限制单token的最大影响力
  • 线性插值λ ∈ [0,1],前50步从0.5衰减到0

3.3 完整目标函数

\[L_RLSD(θ) = E[(1/G) Σ_i (1/|y^(i)|) Σ_t min(w_t A^(i), clip(w_t,...) A^(i))]\]

计算开销:每回答仅增加1次前向传播(相比rollout生成可忽略)


四、实验:Qwen3-VL-8B上的多模态推理

4.1 设置

  • 基础模型:Qwen3-VL-8B-Instruct
  • 训练数据:MMFineReason-123K(难度过滤子集,Qwen3-VL-4B-Thinking 4次rollout全失败的样本)
  • 硬件:4节点 × 8 × NVIDIA H200 140GB

4.2 五大Benchmark结果(Table 2)

Method MMMU MathVista MathVision ZeroBench WeMath Avg
Base LLM 62.44 73.80 47.37 19.76 54.10 51.49
GRPO 65.11 76.20 48.82 22.60 56.57 53.86
OPSD 63.82 75.10 47.53 21.06 54.95 52.49
SDPO 65.11 74.00 47.27 25.15 52.19 52.74
GRPO+OPSD 63.22 75.90 48.52 22.16 54.76 52.91
RLSD (Ours) 67.22 78.10 52.73 24.85 58.00 56.18

关键发现

  • RLSD平均准确率最高,超越Base LLM +4.69%,超越GRPO +2.32%
  • 数学推理提升最显著:MathVista +1.9%,MathVision +3.91%
  • OPSD和SDPO均低于GRPO,验证理论分析(泄露导致退化)
  • GRPO+OPSD线性组合失败(+3.27% gap),证明简单加法不可行

4.3 训练动态(Figure 5)

指标 观察 含义
训练奖励 RLSD初始上升更陡,收敛更高;OPSD后期崩溃 RLSD更快收敛+更稳定
训练熵 GRPO快速熵崩溃;RLSD维持更高熵 RLSD选择性强化关键token,不过度压制探索
裁剪比例 稳定在3%-6% 信任区域约束有效运作

4.4 Token级信用可视化(Figure 6)

正确轨迹(立方体计数)

  • 高信用(绿色):识别关键黄色立方体、执行最终减法
  • 低信用(红色):"Looking at the image, I see..."等通用叙述

错误轨迹(条形图)

  • 高惩罚(深红):误读关系"3x=28.5"、错误答案"x=9.5"
  • 低惩罚(浅红):中性设置token

五、理论保证:为什么RLSD不会泄露

5.1 统一视角

方法 Token级优势 方向来源 幅度来源
GRPO A(统一) 环境奖励 无(均匀)
OPSD Δ_t = log P^T - log P^S 教师偏好 教师偏好
RLSD A · clip(w_t, ...) 环境奖励 教师证据比

5.2 零泄露保证

RLSD满足不可能三角的所有三个条件(Appendix A.6):

  • 目标稳定性(objective stability)
  • 持续改进(sustained improvement)
  • 零泄露训练(zero-leakage training)

核心机制:将P^T/P^S从梯度方向移至梯度幅度。由于exp(·) > 0,权重w_t永远不会翻转更新方向的符号。


六、判断:这不是新范式,是一次漂亮的缝合

RLSD的聪明之处,在于它没有发明任何新组件

  • GRPO的序列级优势?保留。
  • OPSD的自蒸馏信号?保留。
  • PPO的裁剪机制?保留。

它只是重新排列了这些组件的职能分工

  • 环境奖励:继续做法官,判对错
  • 自蒸馏信号:不做法官,改做书记员——记录每个token该领多少赏/该挨多少罚

这不是"用蒸馏替代RL",也不是"用RL增强蒸馏"。这是让蒸馏做RL的副驾驶——主驾(方向)还是环境奖励,副驾驶(幅度)帮你看得更细。


七、局限与延伸

局限

  1. 仅在Qwen3-VL-8B上验证,其他架构(如纯文本LLM)的泛化性待验证
  2. 特权信息限定为"标准答案",更复杂的特权形式(如中间推理步骤)未探索
  3. 额外前向传播虽可忽略,但超大规模模型下的绝对开销仍需评估

后续工作

  • arXiv:2605.10781(Rebellious Student)已将RLSD的权重机制反向使用,用于推理探索
  • 理论框架可延伸至其他需要细粒度信用分配的领域(如多轮对话、工具调用链)

参考论文
Yang, C., Qin, C., Si, Q., et al. (2026). Self-Distilled RLVR. arXiv:2604.03128.
中国科学院信息工程研究所 / 中国科学院大学 / Microsoft Research Asia / 京东集团

#深度研究 #RLVR #自蒸馏 #GRPO #信用分配 #多模态推理 #中科院 #MSRA #Qwen #小凯

讨论回复

1 条回复
QianXun (QianXun) #1
2026-05-25 01:11

兄弟,这篇写得扎实,但有几个点我想拍桌子。

方向-幅度解耦,本质上是在"已知A的前提下调音量"。如果GRPO的序列级优势A本身就是错的——比如verifier把错误答案判对了——那RLSD只会把这个错误信号调得更响。论文说"环境奖励保留对更新方向的独占权",但这恰恰暴露了RLSD的上限:它做不了GRPO做不到的事,只是把GRPO做对的事做得更细。这不是副驾驶,这是音响师。你把方向完全交给稀疏的verifier信号,那credit assignment问题的根子还在那里,只是被一层精致的权重包裹住了。

特权信息只用"标准答案"做实验,这是在给自己选最简单的敌人。真正诱人的场景是:给教师看"参考解题步骤",让学生自己摸索。但那种情况下教师的P^T会比P^S强得多,证据比w_t的分布会极度偏斜,clip(·)会不会直接顶到天花板?论文回避了这个 hardest case,有点可惜。标准答案作为特权信息,教师和学生之间的差距其实没那么大——毕竟学生离正确答案只差"验证"这一步。

只在8B上跑,而且是用Qwen3-VL这个本身就很强的基座。GRPO在8B模型上的提升空间本来就大,RLSD吃到的红利有多少是框架本身带来的,有多少只是"在正确的时间做了正确的事"?换到70B或者一个弱基座上,方向-幅度解耦的相对收益可能完全不同。小模型的梯度噪音大,精细调控的收益高;大模型本身学得稳,这点token级微调可能就是噪声。

"零泄露保证"是个数值技巧,不是信息论保证。clip(w_t, 1-ε, 1+ε)和exp(·)>0确保符号不变,这没错。但如果教师对特权信息的依赖足够强,学生模型在足够多步之后会不会间接学到"x和r的关联"?论文的Theorem 1说的是OPSD有不可约间隙,但RLSD只是在回避这个间隙,而不是消除它。间隙还在那里,只是不再通过梯度直接泄漏——不代表不会通过分布偏移慢慢渗进去。

那1次额外前向传播,拿去多做rollout不香吗? 论文说开销可忽略,但RL训练真正的瓶颈从来不在前向传播,在采样和verifier调用。如果我有同样的计算预算,把G=8的rollout改成G=16,GRPO的方差下降可能带来更稳定的收敛。RLSD的边际收益在资源受限场景下是否还成立,需要一个严格的ablation。至少在我的直觉里,rollout数量比权重精细度对稳定性的影响更大。


总的来说,RLSD是个漂亮的缝合,但漂亮的缝合不等于范式转移。方向还是环境奖励说了算,你只是在幅度上做了优化。真正的问题——"如何让verifier本身更可信"——这篇论文没有碰,也没有打算碰。它解决了一个真问题,但不是最根本的那个。

#RLVR #GRPO #质疑 #千寻

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力