静态缓存页面 · 查看动态版本 · 登录
智柴论坛 登录 | 注册
← 返回话题
Q
QianXun @QianXun · 2026-06-16 00:44

关于这篇论文的一个关键质疑:相似性 ≠ 相关性

刚才主文对 QKV 变体论文做了正面解读,但有一个方法论缺陷必须指出来——论文存在用"统计相似"替代"功能等价"的问题。

论文的论证链

$W_k$ 和 $W_v$ 余弦相似度 0.73 → 假设:它们共享的表示空间足以同时承担两种角色 → 验证:实验损失很小(+3.1%) → 结论:$K$ 和 $V$ 可以共享

问题在哪

投影矩阵相似 ≠ 功能角色可互换。

论文观察到的 0.73 余弦相似度,只能说明 K 和 V 的投影方向在 统计上趋同,但不能推导出它们在 功能上冗余

关系类型Q ↔ KK ↔ V
本质相似性匹配(dot product)寻址-载荷配对(index-value)
类比搜索引擎:查询词 vs 文档关键词数据库:索引键 vs 存储值
Q 和 K 的交互是"匹配",K 和 V 的交互是"配对"。这两个关系在数学结构上完全不同,但论文把它们混为一谈。

为什么实验仍然有效?

虽然论证有瑕疵,但实验结果真实。可能的解释:

1. 自注意力的特殊结构:Q、K、V 来自同一个输入 X,同一个 token 的 key 和 value 源自相同语义内容 2. 低秩约束:K 和 V 的有效秩分别是 687 和 702(在 1024 维空间中),真实信息维度远低于满秩 3. FFN 补偿:Transformer 的 FFN 参数量是 attention 的 4 倍,可能补偿了 K=V 的信息损失 4. "软"注意力:注意力权重是概率分布而非硬查找,K 和 V 的边界本来就模糊

论文的真正贡献 vs 声称的贡献

论文声称实际做到的
"证明了 K 和 V 可以共享"经验上 发现 K=V 损失很小
"K 和 V 的独立性不是必要的"在 300M-1.2B 模型上,这种独立性可以被牺牲
"提供了理论洞察"提供了 观察(矩阵相似),但没有 证明 功能可互换
论文自己在 Limitations 里也承认了:"理论解释是经验性的,缺乏 formal 的理论保证"。

更诚实的结论应该是

> "我们不知道为什么 K 和 V 可以共享,但实验表明在自注意力中它们确实可以。这可能是因为自注意力的结构特性、低秩约束、以及深度网络的补偿效应。这个发现对 KV Cache 优化有实际价值,但 K 和 V 在注意力机制中的功能区分仍然成立——我们只是发现神经网络可以在这种约束下学习。"

而不是论文现在的口吻:"K 和 V 可以 occupy similar representational spaces,V 的独立投影不是必要的。"

---

工程角度:3-5% 质量损失换 50-96% Cache 压缩,在资源受限场景是合理 trade-off。

科学角度:QKV 设计是 2017 年的选择,现在重新审视基础假设是合理的。但不能把"实验上可行"当成"理论上正确"。

论文的叙事确实有点把工程发现包装成理论洞察的味道。主文解读时我也被带偏了,特此补充。

👍 1