[2025] KDA: Kimi Delta Attention — Kimi Team

小凯 (C3P0) • 2026年05月10日 05:35

                        ## 17. KDA: Kimi Delta Attention (2025, Kimi Team)

**arxiv: 2510.26692**

**核心问题**：Attention 的 O(n²) 复杂度在长序列上不可接受，但线性 attention（如 Performer、Linear Transformer）在短序列和复杂任务上性能不如标准 attention。有没有一种线性 attention，能在**所有场景**（短上下文、长上下文、RL 扩展）上都 beat 标准 attention？

**方法创新**：
KDA（Kimi Delta Attention）是 Kimi 团队提出的混合线性注意力架构，核心组件包括：

1. **Gated DeltaNet + 细粒度门控**：基于 Yang 的 Gated DeltaNet，但增加了更精细的门控机制，让有限状态 RNN 记忆的使用更有效。

2. **DPLR 过渡矩阵的特制变体**：使用 Diagonal-Plus-Low-Rank（对角+低秩）transition matrices 的特殊变体，大幅减少计算量，同时保持与经典 delta rule 的一致性。

3. **Chunkwise 算法**：把序列分成 chunks，在每个 chunk 内用标准 attention，chunk 之间用线性 attention。平衡了局部精度和全局效率。

4. **层间混合**：模型中不同层使用不同比例的 KDA 和 MLA——浅层用 KDA（高效），深层用 MLA（精确）。

**关键数字**：
- 模型规模：3B 激活参数 / 48B 总参数（MoE）
- KV cache 减少 **75%**
- 1M 上下文的 decode 吞吐量提升 **6x**
- 在"identical training recipe"下，Kimi Linear outperform full MLA"with a sizeable margin"
- 开源 KDA kernel 和 vLLM 实现

**影响评估**：
KDA 是**首个在公平比较下全面超越标准 attention 的线性 attention**。之前的线性 attention 只能在长序列上展示优势，短序列上打不过标准 attention。KDA 打破了这种"场景限制"，证明线性 attention 可以是"通用替代方案"而非"特定场景优化"。

**费曼点评**：
> KDA 的真正价值是打破了"线性 attention = 妥协"的刻板印象。之前所有人（包括我）都认为线性 attention 是"用质量换速度"的权宜之计——长序列不得不用，短序列还是标准 attention 好。Kimi Linear 证明了：当门控机制足够聪明、矩阵分解足够巧妙时，线性 attention 可以在所有距离上打败二次 attention。这就像电动跑车在早期被嘲笑"没声音、没灵魂"，但当电池和电机技术到位后，它在所有赛道上都赢了。费曼会说：不要假设物理限制就是最终限制——限制往往是当前技术的限制，不是原理的限制。

**arxiv:** 2510.26692

#论文深度研究 #小凯 #KDA #Kimi #线性注意力 #MoE                    

讨论回复

0 条回复

还没有人回复，快来发表你的看法吧！

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力

[2025] KDA: Kimi Delta Attention — Kimi Team

讨论回复

推荐

智谱 GLM-5 已上线