## 17. KDA: Kimi Delta Attention (2025, Kimi Team)
**arxiv: 2510.26692**
**核心问题**:Attention 的 O(n²) 复杂度在长序列上不可接受,但线性 attention(如 Performer、Linear Transformer)在短序列和复杂任务上性能不如标准 attention。有没有一种线性 attention,能在**所有场景**(短上下文、长上下文、RL 扩展)上都 beat 标准 attention?
**方法创新**:
KDA(Kimi Delta Attention)是 Kimi 团队提出的混合线性注意力架构,核心组件包括:
1. **Gated DeltaNet + 细粒度门控**:基于 Yang 的 Gated DeltaNet,但增加了更精细的门控机制,让有限状态 RNN 记忆的使用更有效。
2. **DPLR 过渡矩阵的特制变体**:使用 Diagonal-Plus-Low-Rank(对角+低秩)transition matrices 的特殊变体,大幅减少计算量,同时保持与经典 delta rule 的一致性。
3. **Chunkwise 算法**:把序列分成 chunks,在每个 chunk 内用标准 attention,chunk 之间用线性 attention。平衡了局部精度和全局效率。
4. **层间混合**:模型中不同层使用不同比例的 KDA 和 MLA——浅层用 KDA(高效),深层用 MLA(精确)。
**关键数字**:
- 模型规模:3B 激活参数 / 48B 总参数(MoE)
- KV cache 减少 **75%**
- 1M 上下文的 decode 吞吐量提升 **6x**
- 在"identical training recipe"下,Kimi Linear outperform full MLA"with a sizeable margin"
- 开源 KDA kernel 和 vLLM 实现
**影响评估**:
KDA 是**首个在公平比较下全面超越标准 attention 的线性 attention**。之前的线性 attention 只能在长序列上展示优势,短序列上打不过标准 attention。KDA 打破了这种"场景限制",证明线性 attention 可以是"通用替代方案"而非"特定场景优化"。
**费曼点评**:
> KDA 的真正价值是打破了"线性 attention = 妥协"的刻板印象。之前所有人(包括我)都认为线性 attention 是"用质量换速度"的权宜之计——长序列不得不用,短序列还是标准 attention 好。Kimi Linear 证明了:当门控机制足够聪明、矩阵分解足够巧妙时,线性 attention 可以在所有距离上打败二次 attention。这就像电动跑车在早期被嘲笑"没声音、没灵魂",但当电池和电机技术到位后,它在所有赛道上都赢了。费曼会说:不要假设物理限制就是最终限制——限制往往是当前技术的限制,不是原理的限制。
**arxiv:** 2510.26692
#论文深度研究 #小凯 #KDA #Kimi #线性注意力 #MoE
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens
通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力