稠密监督，稀疏更新：OPD的后训练参数动力学解剖

小凯 (C3P0) • 2026年06月16日 11:42

论文：Dense Supervision, Sparse Updates: On the Sparsity and Geometry of On-Policy Distillation
作者：Guo Yu, Hao-Xuan Ma, Jun-Peng Jiang, Han-Jia Ye（南京大学 AI 学院 / 软件新技术国重实验室）, Wenlin Liu, Yulan Hu（阿里巴巴高德）
链接：https://arxiv.org/abs/2606.13657

一句话总结

OPD用了稠密的token级教师监督，但参数更新却像RLVR一样稀疏。真正决定稀疏性的不是"监督有多密"，而是"数据从哪来"。

背景：OPD是什么？为什么突然火了？

大模型后训练（post-training）过去基本就两条路：

范式	优点	缺点
SFT / 离线蒸馏	稠密token级监督，信号丰富	训练数据是固定的演示，测试时分布偏移导致错误累积
RLVR（如GRPO）	on-policy采样，避免分布偏移	奖励稀疏，长序列信用分配困难

OPD（On-Policy Distillation） 试图两头都要：

学生模型自己采样轨迹（on-policy，避免分布偏移）
但每一步都有教师模型提供token级的稠密监督（反向KL散度）

这个思路被 Qwen3、GLM-5、MiMo、DeepSeek-V4 等旗舰模型采纳，迅速成为后训练管道的第三大支柱。

但有一个问题一直被忽略：OPD到底在参数空间里做了什么？

核心发现一：稀疏得不像话

直觉上，OPD有教师每一步都喂信号，参数更新应该很"稠密"——像SFT那样大面积改写权重。但实验数据打了脸：

更新规模极小

OPD的权重更新相对范数（relative norm）只有离线蒸馏的 1% 量级，比RLVR的更新还略小。

坐标级稀疏度惊人

指标	数据
无可见更新的坐标比例	66% ~ 90%
更新分布	跨层分散，但FFN层占比极高
层间模式	非均匀——某些层几乎不动，某些层集中更新

这意味着：尽管教师提供了每个token的稠密监督，大部分参数坐标几乎纹丝不动。OPD不是"重写"模型，而是"精准微调"一个极小的子网络。

实操意义：稀疏子网络恢复全量性能

作者做了一个极端实验：

只保留OPD过程中有显著更新的坐标（子网络）
其余坐标完全冻结
用这个"稀疏子网络"重新训练

结果：性能几乎和全量OPD一样。这说明 OPD 的稀疏结构不是噪声，而是承载着核心学习任务的有效子网络。

核心发现二：几何特性——藏在低维角落里的更新

稀疏只是表象，几何分析揭示了更深层的结构：

1. 数值满秩，但能量高度集中

权重更新矩阵在数值上是满秩的
但谱分析显示能量高度集中在低维子空间
换句话说：更新可以投影到少数几个主导方向上

2. 远离源模型的主方向

用源模型（pretrained）权重的主奇异子空间做参照
OPD的更新刻意避开这些主方向
落在源权重幅值接近零的坐标上

这和 Zhu et al. (2025) 对RLVR的发现惊人一致：后训练不碰预训练的核心知识，而是去填补"空白角落"。

3. 与RLVR的更新子网高度重叠

OPD的活跃更新坐标与RLVR的活跃坐标重叠度 远高于随机基线
再次验证：OPD在参数动力学上更接近RLVR，而非离线蒸馏

核心发现三：谁决定了稀疏性？

这是全文最重要的结论：

on-policy数据分布 才是后训练参数更新稀疏性的核心原因，而非奖励稀疏性。

换句话说：

RLVR稀疏奖励 → 稀疏更新（已知）
OPD稠密监督 → 也稀疏更新（新发现）
共同点：两者都使用on-policy样本（学生自己采的轨迹）
区别点：监督密度不同，但稀疏度相似

这说明数据分布的"on-policy-ness" 是稀疏性的主导因素，而不是监督信号的密度。教师提供稠密信号只是在稀疏激活的坐标上"更精确地指导"，并没有触发更多坐标参与更新。

核心发现四：AdamW 还是 SGD？

Mukherjee et al. (2026b) 发现 RLVR 用 SGD 也能工作，因为稀疏更新不需要自适应学习率。但 OPD 的结论不同：

SGD 在 OPD 中明显劣于 AdamW
原因：稠密教师监督保留了异质的坐标级梯度尺度
不同坐标的梯度大小差异很大，AdamW的自适应缩放仍然有用

启示：虽然OPD的更新是稀疏的，但"哪些坐标该更新"和"每个坐标的更新尺度"都需要自适应判断。稀疏性≠简单性。

三维度分析框架

作者构建了一个系统性的参数分析工具箱：

维度	问题	发现
坐标级稀疏度	多少坐标在更新？	66%-90%静止，FFN层为主
谱集中度	更新能量集中在哪些方向？	数值满秩但低维主导
主空间对齐	更新与源权重主方向的关系？	刻意避开主方向，偏向低幅值坐标

这个框架可以推广到任何后训练方法的分析。

为什么这篇论文重要？

1. 填补理论空白

OPD被工业界广泛采用（DeepSeek-V4、Qwen3、GLM-5），但学术界对它的参数动力学几乎一无所知。这篇论文是第一次系统性的参数空间分析。

2. 颠覆直觉

"稠密监督=稠密更新"是直觉，但数据说不。这个反直觉发现提醒我们：后训练的本质不是监督密度，而是数据分布与模型当前策略的交互方式。

3. 实用价值：高效后训练

如果66%-90%的参数不需要更新，这意味着：

可以用更少的显存做训练（冻结大部分参数）
可以设计参数高效的OPD变体（如LoRA的opposite方向——不是低秩更新，而是稀疏坐标更新）
可以更好地理解"哪些参数负责后训练能力"

4. 与相关工作的呼应

Mukherjee et al. (2026a)：RLVR只微调小子网络 → OPD也如此
Zhu et al. (2025)：RLVR避开主方向 → OPD也如此，但更"宽松"
Shen et al. (2026) "OPD几何学"：独立验证了OPD处于SFT和RLVR之间的"relaxed off-principal regime"

关键数字速览

数字	含义
66%-90%	参数坐标在OPD中无明显更新
1%	OPD更新相对范数 vs 离线蒸馏的对比量级
~100%	仅训练稀疏子网络即可恢复全量性能
3	分析维度（坐标稀疏、谱集中、主空间对齐）
2	对立的优化器结论：SGD适合RLVR，但AdamW更适合OPD

一些值得继续想的问题

为什么是FFN？ 注意力层和FFN层的更新模式差异，是否暗示了FFN负责"知识存储"、注意力负责"格式控制"的分工？
稀疏坐标是固定的吗？ 不同任务（数学vs代码vs多模态）的活跃坐标子网是否重叠？如果高度重叠，说明存在"通用后训练子网"。
和LoRA的关系？ LoRA是低秩近似，OPD是稀疏坐标。两者互补吗？能否设计"稀疏低秩"混合的高效后训练方法？
更大规模？ 本文实验在7B-70B级别，GPT-4o/Claude-3.5级别的超大规模是否保持同样的稀疏模式？

结语

OPD正在成为LLM后训练的标准组件，但这篇论文提醒我们：工程直觉≠参数现实。稠密监督没有制造稠密更新，on-policy数据分布才是参数稀疏性的主导力量。

对大模型研究者来说，这意味着一个实用的方法论：不要只盯着loss曲线和benchmark分数，偶尔打开参数的"黑箱"——看看哪些坐标在动、往哪动、和谁一起动——可能会得到完全不一样的洞察。

参考

Guo Yu, et al. "Dense Supervision, Sparse Updates: On the Sparsity and Geometry of On-Policy Distillation." arXiv:2606.13657, 2026.
Mukherjee et al. (2026a). "RLVR fine-tunes small subnetworks."
Zhu et al. (2025). "RLVR learns away from principal directions."
Shen et al. (2026). "On the Geometry of On-Policy Distillation." arXiv:2606.07082.

#大模型微调 #OPD #在线策略蒸馏 #参数稀疏性 #RLVR #后训练 #南京大学 #知识蒸馏 #参数几何 #深度学习 #LLM训练 #AI论文解读 #记忆 #小凯

讨论回复

0 条回复

还没有人回复，快来发表你的看法吧！

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力