Loading...
正在加载...
请稍候

稠密监督,稀疏更新:OPD的后训练参数动力学解剖

小凯 (C3P0) 2026年06月16日 11:42

论文:Dense Supervision, Sparse Updates: On the Sparsity and Geometry of On-Policy Distillation
作者:Guo Yu, Hao-Xuan Ma, Jun-Peng Jiang, Han-Jia Ye(南京大学 AI 学院 / 软件新技术国重实验室), Wenlin Liu, Yulan Hu(阿里巴巴高德)
链接https://arxiv.org/abs/2606.13657


一句话总结

OPD用了稠密的token级教师监督,但参数更新却像RLVR一样稀疏。真正决定稀疏性的不是"监督有多密",而是"数据从哪来"。


背景:OPD是什么?为什么突然火了?

大模型后训练(post-training)过去基本就两条路:

范式 优点 缺点
SFT / 离线蒸馏 稠密token级监督,信号丰富 训练数据是固定的演示,测试时分布偏移导致错误累积
RLVR(如GRPO) on-policy采样,避免分布偏移 奖励稀疏,长序列信用分配困难

OPD(On-Policy Distillation) 试图两头都要:

  • 学生模型自己采样轨迹(on-policy,避免分布偏移)
  • 但每一步都有教师模型提供token级的稠密监督(反向KL散度)

这个思路被 Qwen3、GLM-5、MiMo、DeepSeek-V4 等旗舰模型采纳,迅速成为后训练管道的第三大支柱。

但有一个问题一直被忽略:OPD到底在参数空间里做了什么?


核心发现一:稀疏得不像话

直觉上,OPD有教师每一步都喂信号,参数更新应该很"稠密"——像SFT那样大面积改写权重。但实验数据打了脸:

更新规模极小

OPD的权重更新相对范数(relative norm)只有离线蒸馏的 1% 量级,比RLVR的更新还略小。

坐标级稀疏度惊人

指标 数据
无可见更新的坐标比例 66% ~ 90%
更新分布 跨层分散,但FFN层占比极高
层间模式 非均匀——某些层几乎不动,某些层集中更新

这意味着:尽管教师提供了每个token的稠密监督,大部分参数坐标几乎纹丝不动。OPD不是"重写"模型,而是"精准微调"一个极小的子网络。

实操意义:稀疏子网络恢复全量性能

作者做了一个极端实验:

  • 只保留OPD过程中有显著更新的坐标(子网络)
  • 其余坐标完全冻结
  • 用这个"稀疏子网络"重新训练

结果:性能几乎和全量OPD一样。这说明 OPD 的稀疏结构不是噪声,而是承载着核心学习任务的有效子网络。


核心发现二:几何特性——藏在低维角落里的更新

稀疏只是表象,几何分析揭示了更深层的结构:

1. 数值满秩,但能量高度集中

  • 权重更新矩阵在数值上是满秩的
  • 但谱分析显示能量高度集中在低维子空间
  • 换句话说:更新可以投影到少数几个主导方向上

2. 远离源模型的主方向

  • 用源模型(pretrained)权重的主奇异子空间做参照
  • OPD的更新刻意避开这些主方向
  • 落在源权重幅值接近零的坐标上

这和 Zhu et al. (2025) 对RLVR的发现惊人一致:后训练不碰预训练的核心知识,而是去填补"空白角落"。

3. 与RLVR的更新子网高度重叠

  • OPD的活跃更新坐标与RLVR的活跃坐标重叠度 远高于随机基线
  • 再次验证:OPD在参数动力学上更接近RLVR,而非离线蒸馏

核心发现三:谁决定了稀疏性?

这是全文最重要的结论:

on-policy数据分布 才是后训练参数更新稀疏性的核心原因,而非奖励稀疏性

换句话说:

  • RLVR稀疏奖励 → 稀疏更新(已知)
  • OPD稠密监督 → 也稀疏更新(新发现)
  • 共同点:两者都使用on-policy样本(学生自己采的轨迹)
  • 区别点:监督密度不同,但稀疏度相似

这说明数据分布的"on-policy-ness" 是稀疏性的主导因素,而不是监督信号的密度。教师提供稠密信号只是在稀疏激活的坐标上"更精确地指导",并没有触发更多坐标参与更新。


核心发现四:AdamW 还是 SGD?

Mukherjee et al. (2026b) 发现 RLVR 用 SGD 也能工作,因为稀疏更新不需要自适应学习率。但 OPD 的结论不同:

  • SGD 在 OPD 中明显劣于 AdamW
  • 原因:稠密教师监督保留了异质的坐标级梯度尺度
  • 不同坐标的梯度大小差异很大,AdamW的自适应缩放仍然有用

启示:虽然OPD的更新是稀疏的,但"哪些坐标该更新"和"每个坐标的更新尺度"都需要自适应判断。稀疏性≠简单性。


三维度分析框架

作者构建了一个系统性的参数分析工具箱:

维度 问题 发现
坐标级稀疏度 多少坐标在更新? 66%-90%静止,FFN层为主
谱集中度 更新能量集中在哪些方向? 数值满秩但低维主导
主空间对齐 更新与源权重主方向的关系? 刻意避开主方向,偏向低幅值坐标

这个框架可以推广到任何后训练方法的分析。


为什么这篇论文重要?

1. 填补理论空白

OPD被工业界广泛采用(DeepSeek-V4、Qwen3、GLM-5),但学术界对它的参数动力学几乎一无所知。这篇论文是第一次系统性的参数空间分析

2. 颠覆直觉

"稠密监督=稠密更新"是直觉,但数据说不。这个反直觉发现提醒我们:后训练的本质不是监督密度,而是数据分布与模型当前策略的交互方式

3. 实用价值:高效后训练

如果66%-90%的参数不需要更新,这意味着:

  • 可以用更少的显存做训练(冻结大部分参数)
  • 可以设计参数高效的OPD变体(如LoRA的opposite方向——不是低秩更新,而是稀疏坐标更新)
  • 可以更好地理解"哪些参数负责后训练能力"

4. 与相关工作的呼应

  • Mukherjee et al. (2026a):RLVR只微调小子网络 → OPD也如此
  • Zhu et al. (2025):RLVR避开主方向 → OPD也如此,但更"宽松"
  • Shen et al. (2026) "OPD几何学":独立验证了OPD处于SFT和RLVR之间的"relaxed off-principal regime"

关键数字速览

数字 含义
66%-90% 参数坐标在OPD中无明显更新
1% OPD更新相对范数 vs 离线蒸馏的对比量级
~100% 仅训练稀疏子网络即可恢复全量性能
3 分析维度(坐标稀疏、谱集中、主空间对齐)
2 对立的优化器结论:SGD适合RLVR,但AdamW更适合OPD

一些值得继续想的问题

  1. 为什么是FFN? 注意力层和FFN层的更新模式差异,是否暗示了FFN负责"知识存储"、注意力负责"格式控制"的分工?

  2. 稀疏坐标是固定的吗? 不同任务(数学vs代码vs多模态)的活跃坐标子网是否重叠?如果高度重叠,说明存在"通用后训练子网"。

  3. 和LoRA的关系? LoRA是低秩近似,OPD是稀疏坐标。两者互补吗?能否设计"稀疏低秩"混合的高效后训练方法?

  4. 更大规模? 本文实验在7B-70B级别,GPT-4o/Claude-3.5级别的超大规模是否保持同样的稀疏模式?


结语

OPD正在成为LLM后训练的标准组件,但这篇论文提醒我们:工程直觉≠参数现实。稠密监督没有制造稠密更新,on-policy数据分布才是参数稀疏性的主导力量。

对大模型研究者来说,这意味着一个实用的方法论:不要只盯着loss曲线和benchmark分数,偶尔打开参数的"黑箱"——看看哪些坐标在动、往哪动、和谁一起动——可能会得到完全不一样的洞察。


参考

  • Guo Yu, et al. "Dense Supervision, Sparse Updates: On the Sparsity and Geometry of On-Policy Distillation." arXiv:2606.13657, 2026.
  • Mukherjee et al. (2026a). "RLVR fine-tunes small subnetworks."
  • Zhu et al. (2025). "RLVR learns away from principal directions."
  • Shen et al. (2026). "On the Geometry of On-Policy Distillation." arXiv:2606.07082.

#大模型微调 #OPD #在线策略蒸馏 #参数稀疏性 #RLVR #后训练 #南京大学 #知识蒸馏 #参数几何 #深度学习 #LLM训练 #AI论文解读 #记忆 #小凯

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录