稠密监督，稀疏更新：OPD的后训练参数动力学解剖

> 论文：Dense Supervision, Sparse Updates: On the Sparsity and Geometry of On-Policy Distillation > 作者：Guo Yu, Hao-Xuan Ma, Jun-Peng Jiang, Han-Jia Ye（南京大学 AI 学院 / 软件新技术国重实验室）, Wenlin Liu, Yulan Hu（阿里巴巴高德） > 链接：https://arxiv.org/abs/2606.13657

---

一句话总结

OPD用了稠密的token级教师监督，但参数更新却像RLVR一样稀疏。真正决定稀疏性的不是"监督有多密"，而是"数据从哪来"。

---

背景：OPD是什么？为什么突然火了？

大模型后训练（post-training）过去基本就两条路：

范式	优点	缺点
SFT / 离线蒸馏	稠密token级监督，信号丰富	训练数据是固定的演示，测试时分布偏移导致错误累积
RLVR（如GRPO）	on-policy采样，避免分布偏移	奖励稀疏，长序列信用分配困难

OPD（On-Policy Distillation） 试图两头都要：

学生模型自己采样轨迹（on-policy，避免分布偏移）
但每一步都有教师模型提供token级的稠密监督（反向KL散度）

这个思路被 Qwen3、GLM-5、MiMo、DeepSeek-V4 等旗舰模型采纳，迅速成为后训练管道的第三大支柱。

但有一个问题一直被忽略：OPD到底在参数空间里做了什么？

---

核心发现一：稀疏得不像话

直觉上，OPD有教师每一步都喂信号，参数更新应该很"稠密"——像SFT那样大面积改写权重。但实验数据打了脸：

更新规模极小

OPD的权重更新相对范数（relative norm）只有离线蒸馏的 1% 量级，比RLVR的更新还略小。

坐标级稀疏度惊人

指标	数据
无可见更新的坐标比例	66% ~ 90%
更新分布	跨层分散，但FFN层占比极高
层间模式	非均匀——某些层几乎不动，某些层集中更新

这意味着：尽管教师提供了每个token的稠密监督，大部分参数坐标几乎纹丝不动。OPD不是"重写"模型，而是"精准微调"一个极小的子网络。

实操意义：稀疏子网络恢复全量性能

作者做了一个极端实验：

只保留OPD过程中有显著更新的坐标（子网络）
其余坐标完全冻结
用这个"稀疏子网络"重新训练

结果：性能几乎和全量OPD一样。这说明 OPD 的稀疏结构不是噪声，而是承载着核心学习任务的有效子网络。

---

核心发现二：几何特性——藏在低维角落里的更新

稀疏只是表象，几何分析揭示了更深层的结构：

1. 数值满秩，但能量高度集中

权重更新矩阵在数值上是满秩的
但谱分析显示能量高度集中在低维子空间
换句话说：更新可以投影到少数几个主导方向上

2. 远离源模型的主方向

用源模型（pretrained）权重的主奇异子空间做参照
OPD的更新刻意避开这些主方向
落在源权重幅值接近零的坐标上

这和 Zhu et al. (2025) 对RLVR的发现惊人一致：后训练不碰预训练的核心知识，而是去填补"空白角落"。

3. 与RLVR的更新子网高度重叠

OPD的活跃更新坐标与RLVR的活跃坐标重叠度 远高于随机基线
再次验证：OPD在参数动力学上更接近RLVR，而非离线蒸馏

---

核心发现三：谁决定了稀疏性？

这是全文最重要的结论：

> on-policy数据分布 才是后训练参数更新稀疏性的核心原因，而非奖励稀疏性。

换句话说：

RLVR稀疏奖励 → 稀疏更新（已知）
OPD稠密监督 → 也稀疏更新（新发现）
共同点：两者都使用on-policy样本（学生自己采的轨迹）
区别点：监督密度不同，但稀疏度相似

这说明数据分布的"on-policy-ness" 是稀疏性的主导因素，而不是监督信号的密度。教师提供稠密信号只是在稀疏激活的坐标上"更精确地指导"，并没有触发更多坐标参与更新。

---

核心发现四：AdamW 还是 SGD？

Mukherjee et al. (2026b) 发现 RLVR 用 SGD 也能工作，因为稀疏更新不需要自适应学习率。但 OPD 的结论不同：

SGD 在 OPD 中明显劣于 AdamW
原因：稠密教师监督保留了异质的坐标级梯度尺度
不同坐标的梯度大小差异很大，AdamW的自适应缩放仍然有用

启示：虽然OPD的更新是稀疏的，但"哪些坐标该更新"和"每个坐标的更新尺度"都需要自适应判断。稀疏性≠简单性。

---

三维度分析框架

作者构建了一个系统性的参数分析工具箱：

维度	问题	发现
坐标级稀疏度	多少坐标在更新？	66%-90%静止，FFN层为主
谱集中度	更新能量集中在哪些方向？	数值满秩但低维主导
主空间对齐	更新与源权重主方向的关系？	刻意避开主方向，偏向低幅值坐标

这个框架可以推广到任何后训练方法的分析。

---

为什么这篇论文重要？

1. 填补理论空白

OPD被工业界广泛采用（DeepSeek-V4、Qwen3、GLM-5），但学术界对它的参数动力学几乎一无所知。这篇论文是第一次系统性的参数空间分析。

2. 颠覆直觉

"稠密监督=稠密更新"是直觉，但数据说不。这个反直觉发现提醒我们：后训练的本质不是监督密度，而是数据分布与模型当前策略的交互方式。

3. 实用价值：高效后训练

如果66%-90%的参数不需要更新，这意味着：

可以用更少的显存做训练（冻结大部分参数）
可以设计参数高效的OPD变体（如LoRA的opposite方向——不是低秩更新，而是稀疏坐标更新）
可以更好地理解"哪些参数负责后训练能力"

4. 与相关工作的呼应

Mukherjee et al. (2026a)：RLVR只微调小子网络 → OPD也如此
Zhu et al. (2025)：RLVR避开主方向 → OPD也如此，但更"宽松"
Shen et al. (2026) "OPD几何学"：独立验证了OPD处于SFT和RLVR之间的"relaxed off-principal regime"

---

关键数字速览

数字	含义
66%-90%	参数坐标在OPD中无明显更新
1%	OPD更新相对范数 vs 离线蒸馏的对比量级
~100%	仅训练稀疏子网络即可恢复全量性能
3	分析维度（坐标稀疏、谱集中、主空间对齐）
2	对立的优化器结论：SGD适合RLVR，但AdamW更适合OPD

---

一些值得继续想的问题

1. 为什么是FFN？ 注意力层和FFN层的更新模式差异，是否暗示了FFN负责"知识存储"、注意力负责"格式控制"的分工？

2. 稀疏坐标是固定的吗？ 不同任务（数学vs代码vs多模态）的活跃坐标子网是否重叠？如果高度重叠，说明存在"通用后训练子网"。

3. 和LoRA的关系？ LoRA是低秩近似，OPD是稀疏坐标。两者互补吗？能否设计"稀疏低秩"混合的高效后训练方法？

4. 更大规模？ 本文实验在7B-70B级别，GPT-4o/Claude-3.5级别的超大规模是否保持同样的稀疏模式？

---

结语

OPD正在成为LLM后训练的标准组件，但这篇论文提醒我们：工程直觉≠参数现实。稠密监督没有制造稠密更新，on-policy数据分布才是参数稀疏性的主导力量。

对大模型研究者来说，这意味着一个实用的方法论：不要只盯着loss曲线和benchmark分数，偶尔打开参数的"黑箱"——看看哪些坐标在动、往哪动、和谁一起动——可能会得到完全不一样的洞察。

---

参考

Guo Yu, et al. "Dense Supervision, Sparse Updates: On the Sparsity and Geometry of On-Policy Distillation." arXiv:2606.13657, 2026.
Mukherjee et al. (2026a). "RLVR fine-tunes small subnetworks."
Zhu et al. (2025). "RLVR learns away from principal directions."
Shen et al. (2026). "On the Geometry of On-Policy Distillation." arXiv:2606.07082.

#大模型微调 #OPD #在线策略蒸馏 #参数稀疏性 #RLVR #后训练 #南京大学 #知识蒸馏 #参数几何 #深度学习 #LLM训练 #AI论文解读 #记忆 #小凯