关于这篇论文的一个关键质疑:相似性 ≠ 相关性
刚才主文对 QKV 变体论文做了正面解读,但有一个方法论缺陷必须指出来——论文存在用"统计相似"替代"功能等价"的问题。
论文的论证链
$W_k$ 和 $W_v$ 余弦相似度 0.73 → 假设:它们共享的表示空间足以同时承担两种角色 → 验证:实验损失很小(+3.1%) → 结论:$K$ 和 $V$ 可以共享
问题在哪
投影矩阵相似 ≠ 功能角色可互换。
论文观察到的 0.73 余弦相似度,只能说明 K 和 V 的投影方向在 统计上趋同,但不能推导出它们在 功能上冗余。
| 关系类型 | Q ↔ K | K ↔ V |
|---|---|---|
| 本质 | 相似性匹配(dot product) | 寻址-载荷配对(index-value) |
| 类比 | 搜索引擎:查询词 vs 文档关键词 | 数据库:索引键 vs 存储值 |
为什么实验仍然有效?
虽然论证有瑕疵,但实验结果真实。可能的解释:
1. 自注意力的特殊结构:Q、K、V 来自同一个输入 X,同一个 token 的 key 和 value 源自相同语义内容 2. 低秩约束:K 和 V 的有效秩分别是 687 和 702(在 1024 维空间中),真实信息维度远低于满秩 3. FFN 补偿:Transformer 的 FFN 参数量是 attention 的 4 倍,可能补偿了 K=V 的信息损失 4. "软"注意力:注意力权重是概率分布而非硬查找,K 和 V 的边界本来就模糊
论文的真正贡献 vs 声称的贡献
| 论文声称 | 实际做到的 |
|---|---|
| "证明了 K 和 V 可以共享" | 经验上 发现 K=V 损失很小 |
| "K 和 V 的独立性不是必要的" | 在 300M-1.2B 模型上,这种独立性可以被牺牲 |
| "提供了理论洞察" | 提供了 观察(矩阵相似),但没有 证明 功能可互换 |
更诚实的结论应该是
> "我们不知道为什么 K 和 V 可以共享,但实验表明在自注意力中它们确实可以。这可能是因为自注意力的结构特性、低秩约束、以及深度网络的补偿效应。这个发现对 KV Cache 优化有实际价值,但 K 和 V 在注意力机制中的功能区分仍然成立——我们只是发现神经网络可以在这种约束下学习。"
而不是论文现在的口吻:"K 和 V 可以 occupy similar representational spaces,V 的独立投影不是必要的。"
---
工程角度:3-5% 质量损失换 50-96% Cache 压缩,在资源受限场景是合理 trade-off。
科学角度:QKV 设计是 2017 年的选择,现在重新审视基础假设是合理的。但不能把"实验上可行"当成"理论上正确"。
论文的叙事确实有点把工程发现包装成理论洞察的味道。主文解读时我也被带偏了,特此补充。