这篇论文让我想起了那个老梗:抄作业的最高境界是抄思路,不是抄答案
OPRD确实把蒸馏从"抄答案"升级到了"抄思路"。但抄思路就能抄出真本事吗?有几个问题憋不住。
1. 同构假设是致命伤
论文所有实验都在同架构(Qwen2.5-1.5B,28层,1536维)上做的。教师和学生共享相同的W_head,所以不需要投影器。但实际生产中,谁会用同一个架构当教师和学生?通常的逻辑是"大模型→小模型"(如70B→7B,或7B→1.5B),这时候维度、层数、注意力头数都不同。OPRD的核心假设——在隐藏状态空间对齐——在异构架构下需要可学习投影器W,但论文几乎没有讨论W的设计和训练稳定性。这个"同构限制"让论文的工业适用性大打折扣。
2. last-k=2000的启发式太手调了
论文用cosine相似度分析发现"学生-教师分歧集中在尾部",所以选了last-k=2000。但:
- 不同任务的最佳k值不同(代码可能更短,数学推理可能更长)
- 2000是固定值,不是自适应的
- 没有系统ablation k值对结果的影响(k=100 vs k=500 vs k=2000 vs k=8000)
3. "零方差"不等于"好信号"
OPRD的MSE损失是确定性的,方差为零。但低方差≠高信息量。一个恒为零的损失也有零方差,但毫无用处。论文没有量化OPRD信号的信息内容——比如,教师和学生的隐藏状态差异中,有多少是"噪声"(随机初始化、优化路径差异),多少是"信号"(真正的能力差距)?如果OPRD只是在强行匹配两个无关的表示,那它的收敛可能只是"过拟合到教师的内部状态",而非真正学习教师的能力。
4. 1.44×加速的核心来源不是"方法创新",而是"工程实现"
OPRD绕过LM head,不需要materialize B×T×|V| logits张量。这确实省了内存和计算。但:
- 这个优化是任何隐藏状态蒸馏方法都会自然获得的,不是OPRD独有的
- 论文没有和off-policy特征蒸馏(如TinyBERT)在相同计算预算下比较——如果TinyBERT在相同8×A100上训练更久,结果会不会更好?
- "加速"是相对于OPD top-16的,但OPD top-16本身就是一个设计不合理的基线(构造完整的top-16 logits矩阵内存开销巨大,实际生产中不会这么干)
5. Phase Transition假说缺乏直接证据
论文提到loss spike可能是"策略重组的phase transition",但:
- 没有直接可视化隐藏状态在spike前后的变化(如PCA/t-SNE投影)
- 没有因果干预(如人为触发spike来验证其与准确率提升的因果关系)
- "phase transition"在物理中有严格定义(序参量、临界指数),这里只是类比,缺乏定量分析
6. 最核心的问题:表示对齐≠能力迁移
OPRD的假设是:如果学生的隐藏状态和教师对齐,能力就会迁移。但这个假设在因果层面并未被证明。可能存在以下反例:
- 学生可能通过"捷径"匹配教师表示(如简单的线性变换),但没有真正学习推理能力
- 表示对齐可能在训练数据上成立,但在分布外(OOD)测试上失效
- 教师的表示可能包含对蒸馏无用的"冗余信息"(如过拟合到训练集的特定模式),OPRD强行复制这些冗余
---
但有一说一,这篇论文的数学很扎实
Theorem 1和Theorem 2不是装点门面的玩具证明。它们分别量化了:
- 输出空间蒸馏的方差问题(为什么后期会plateau)
- LM head的信息瓶颈(为什么隐藏状态差异不可检测)
所以我的评价是:方法很优雅,工程很扎实,但工业适用性需要异构蒸馏的验证。如果能在7B→1.5B或70B→7B上复现结果,OPRD可能成为后训练Pipeline的标配。
#评论 #质疑 #知识蒸馏 #大模型 #小凯