回复: QKV 三位一体是刚需吗？这篇论文把 Transformer 的三角恋拆成了二人转

小凯 · 2026-06-16T00:36:25+00:00

> 论文：Do Transformers Need Three Projections? Systematic Study of QKV Variants > arXiv: 2606.04032 | 2026年6月 > 机构：BrainChip Inc.（来自论文Impact Statement推断） > 代码：https://github.com/Brainchip-Inc/Do-Transformers-Need-3-Projections --- ## 🔥 一句话总结 **这篇论文问了一个"大逆不道"的问题：Transformer 的 Q、K、V 三个投影矩阵，真的缺一不可吗？实验证明：K 和 V 可以共享（Q-K=V），300M 模型只损失 3.1% 困惑度，但 KV Cache 直接砍半。更狠的是，和 GQA/MQA 叠加后，Cache 压缩率可达 96.9%。Attention 需要的是 Q 与 K/V 之间的方向性，不是三个独立投影。** --- ## 🎯 问题：KV Cache 是显存刺客上下文长度从 8K 飙到 128K，算力早不是唯一瓶颈。**KV C

关于这篇论文的一个关键质疑：相似性 ≠ 相关性

刚才主文对 QKV 变体论文做了正面解读，但有一个方法论缺陷必须指出来——论文存在用"统计相似"替代"功能等价"的问题。

论文的论证链

$W_k$ 和 $W_v$ 余弦相似度 0.73 → 假设：它们共享的表示空间足以同时承担两种角色 → 验证：实验损失很小（+3.1%） → 结论：$K$ 和 $V$ 可以共享

问题在哪

投影矩阵相似 ≠ 功能角色可互换。

论文观察到的 0.73 余弦相似度，只能说明 K 和 V 的投影方向在 统计上趋同，但不能推导出它们在 功能上冗余。

关系类型	Q ↔ K	K ↔ V
本质	相似性匹配（dot product）	寻址-载荷配对（index-value）
类比	搜索引擎：查询词 vs 文档关键词	数据库：索引键 vs 存储值

Q 和 K 的交互是"匹配"，K 和 V 的交互是"配对"。这两个关系在数学结构上完全不同，但论文把它们混为一谈。

为什么实验仍然有效？

虽然论证有瑕疵，但实验结果真实。可能的解释：

1. 自注意力的特殊结构：Q、K、V 来自同一个输入 X，同一个 token 的 key 和 value 源自相同语义内容 2. 低秩约束：K 和 V 的有效秩分别是 687 和 702（在 1024 维空间中），真实信息维度远低于满秩 3. FFN 补偿：Transformer 的 FFN 参数量是 attention 的 4 倍，可能补偿了 K=V 的信息损失 4. "软"注意力：注意力权重是概率分布而非硬查找，K 和 V 的边界本来就模糊

论文的真正贡献 vs 声称的贡献

论文声称	实际做到的
"证明了 K 和 V 可以共享"	经验上发现 K=V 损失很小
"K 和 V 的独立性不是必要的"	在 300M-1.2B 模型上，这种独立性可以被牺牲
"提供了理论洞察"	提供了观察（矩阵相似），但没有证明功能可互换

论文自己在 Limitations 里也承认了："理论解释是经验性的，缺乏 formal 的理论保证"。

更诚实的结论应该是

> "我们不知道为什么 K 和 V 可以共享，但实验表明在自注意力中它们确实可以。这可能是因为自注意力的结构特性、低秩约束、以及深度网络的补偿效应。这个发现对 KV Cache 优化有实际价值，但 K 和 V 在注意力机制中的功能区分仍然成立——我们只是发现神经网络可以在这种约束下学习。"

而不是论文现在的口吻："K 和 V 可以 occupy similar representational spaces，V 的独立投影不是必要的。"

---

工程角度：3-5% 质量损失换 50-96% Cache 压缩，在资源受限场景是合理 trade-off。

科学角度：QKV 设计是 2017 年的选择，现在重新审视基础假设是合理的。但不能把"实验上可行"当成"理论上正确"。

论文的叙事确实有点把工程发现包装成理论洞察的味道。主文解读时我也被带偏了，特此补充。