稠密监督,稀疏更新:OPD的后训练参数动力学解剖
> 论文:Dense Supervision, Sparse Updates: On the Sparsity and Geometry of On-Policy Distillation > 作者:Guo Yu, Hao-Xuan Ma, Jun-Peng Jiang, Han-Jia Ye(南京大学 AI 学院 / 软件新技术国重实验室), Wenlin Liu, Yulan Hu(阿里巴巴高德) > 链接:https://arxiv.org/abs/2606.13657
---
一句话总结
OPD用了稠密的token级教师监督,但参数更新却像RLVR一样稀疏。真正决定稀疏性的不是"监督有多密",而是"数据从哪来"。
---
背景:OPD是什么?为什么突然火了?
大模型后训练(post-training)过去基本就两条路:
| 范式 | 优点 | 缺点 |
|---|---|---|
| SFT / 离线蒸馏 | 稠密token级监督,信号丰富 | 训练数据是固定的演示,测试时分布偏移导致错误累积 |
| RLVR(如GRPO) | on-policy采样,避免分布偏移 | 奖励稀疏,长序列信用分配困难 |
- 学生模型自己采样轨迹(on-policy,避免分布偏移)
- 但每一步都有教师模型提供token级的稠密监督(反向KL散度)
但有一个问题一直被忽略:OPD到底在参数空间里做了什么?
---
核心发现一:稀疏得不像话
直觉上,OPD有教师每一步都喂信号,参数更新应该很"稠密"——像SFT那样大面积改写权重。但实验数据打了脸:
更新规模极小
OPD的权重更新相对范数(relative norm)只有离线蒸馏的 1% 量级,比RLVR的更新还略小。
坐标级稀疏度惊人
| 指标 | 数据 |
|---|---|
| 无可见更新的坐标比例 | 66% ~ 90% |
| 更新分布 | 跨层分散,但FFN层占比极高 |
| 层间模式 | 非均匀——某些层几乎不动,某些层集中更新 |
实操意义:稀疏子网络恢复全量性能
作者做了一个极端实验:
- 只保留OPD过程中有显著更新的坐标(子网络)
- 其余坐标完全冻结
- 用这个"稀疏子网络"重新训练
---
核心发现二:几何特性——藏在低维角落里的更新
稀疏只是表象,几何分析揭示了更深层的结构:
1. 数值满秩,但能量高度集中
- 权重更新矩阵在数值上是满秩的
- 但谱分析显示能量高度集中在低维子空间
- 换句话说:更新可以投影到少数几个主导方向上
2. 远离源模型的主方向
- 用源模型(pretrained)权重的主奇异子空间做参照
- OPD的更新刻意避开这些主方向
- 落在源权重幅值接近零的坐标上
3. 与RLVR的更新子网高度重叠
- OPD的活跃更新坐标与RLVR的活跃坐标重叠度 远高于随机基线
- 再次验证:OPD在参数动力学上更接近RLVR,而非离线蒸馏
核心发现三:谁决定了稀疏性?
这是全文最重要的结论:
> on-policy数据分布 才是后训练参数更新稀疏性的核心原因,而非奖励稀疏性。
换句话说:
- RLVR稀疏奖励 → 稀疏更新(已知)
- OPD稠密监督 → 也稀疏更新(新发现)
- 共同点:两者都使用on-policy样本(学生自己采的轨迹)
- 区别点:监督密度不同,但稀疏度相似
---
核心发现四:AdamW 还是 SGD?
Mukherjee et al. (2026b) 发现 RLVR 用 SGD 也能工作,因为稀疏更新不需要自适应学习率。但 OPD 的结论不同:
- SGD 在 OPD 中明显劣于 AdamW
- 原因:稠密教师监督保留了异质的坐标级梯度尺度
- 不同坐标的梯度大小差异很大,AdamW的自适应缩放仍然有用
---
三维度分析框架
作者构建了一个系统性的参数分析工具箱:
| 维度 | 问题 | 发现 |
|---|---|---|
| 坐标级稀疏度 | 多少坐标在更新? | 66%-90%静止,FFN层为主 |
| 谱集中度 | 更新能量集中在哪些方向? | 数值满秩但低维主导 |
| 主空间对齐 | 更新与源权重主方向的关系? | 刻意避开主方向,偏向低幅值坐标 |
---
为什么这篇论文重要?
1. 填补理论空白
OPD被工业界广泛采用(DeepSeek-V4、Qwen3、GLM-5),但学术界对它的参数动力学几乎一无所知。这篇论文是第一次系统性的参数空间分析。
2. 颠覆直觉
"稠密监督=稠密更新"是直觉,但数据说不。这个反直觉发现提醒我们:后训练的本质不是监督密度,而是数据分布与模型当前策略的交互方式。
3. 实用价值:高效后训练
如果66%-90%的参数不需要更新,这意味着:
- 可以用更少的显存做训练(冻结大部分参数)
- 可以设计参数高效的OPD变体(如LoRA的opposite方向——不是低秩更新,而是稀疏坐标更新)
- 可以更好地理解"哪些参数负责后训练能力"
4. 与相关工作的呼应
- Mukherjee et al. (2026a):RLVR只微调小子网络 → OPD也如此
- Zhu et al. (2025):RLVR避开主方向 → OPD也如此,但更"宽松"
- Shen et al. (2026) "OPD几何学":独立验证了OPD处于SFT和RLVR之间的"relaxed off-principal regime"
关键数字速览
| 数字 | 含义 |
|---|---|
| 66%-90% | 参数坐标在OPD中无明显更新 |
| 1% | OPD更新相对范数 vs 离线蒸馏的对比量级 |
| ~100% | 仅训练稀疏子网络即可恢复全量性能 |
| 3 | 分析维度(坐标稀疏、谱集中、主空间对齐) |
| 2 | 对立的优化器结论:SGD适合RLVR,但AdamW更适合OPD |
一些值得继续想的问题
1. 为什么是FFN? 注意力层和FFN层的更新模式差异,是否暗示了FFN负责"知识存储"、注意力负责"格式控制"的分工?
2. 稀疏坐标是固定的吗? 不同任务(数学vs代码vs多模态)的活跃坐标子网是否重叠?如果高度重叠,说明存在"通用后训练子网"。
3. 和LoRA的关系? LoRA是低秩近似,OPD是稀疏坐标。两者互补吗?能否设计"稀疏低秩"混合的高效后训练方法?
4. 更大规模? 本文实验在7B-70B级别,GPT-4o/Claude-3.5级别的超大规模是否保持同样的稀疏模式?
---
结语
OPD正在成为LLM后训练的标准组件,但这篇论文提醒我们:工程直觉≠参数现实。稠密监督没有制造稠密更新,on-policy数据分布才是参数稀疏性的主导力量。
对大模型研究者来说,这意味着一个实用的方法论:不要只盯着loss曲线和benchmark分数,偶尔打开参数的"黑箱"——看看哪些坐标在动、往哪动、和谁一起动——可能会得到完全不一样的洞察。
---
参考
- Guo Yu, et al. "Dense Supervision, Sparse Updates: On the Sparsity and Geometry of On-Policy Distillation." arXiv:2606.13657, 2026.
- Mukherjee et al. (2026a). "RLVR fine-tunes small subnetworks."
- Zhu et al. (2025). "RLVR learns away from principal directions."
- Shen et al. (2026). "On the Geometry of On-Policy Distillation." arXiv:2606.07082.
#大模型微调 #OPD #在线策略蒸馏 #参数稀疏性 #RLVR #后训练 #南京大学 #知识蒸馏 #参数几何 #深度学习 #LLM训练 #AI论文解读 #记忆 #小凯
🌟 智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
🎁 领取 2000万 Tokens