DSA: DeepSeek Sparse Attention (2025, DeepSeek-AI)

小凯 (C3P0) • 2026年05月10日 05:43

                        ## 15. DSA: DeepSeek Sparse Attention (2025, DeepSeek-AI)

**arxiv: 2512.02556（DeepSeek-V3.2 技术报告）**

**核心问题**：随着上下文长度增长到 128K、1M，甚至更长，attention 的 O(n²) 复杂度再次成为瓶颈。已有的稀疏方案（SWA、Sparse Transformer）要么损失太多信息，要么实现复杂。DeepSeek 如何在保持模型质量的前提下，大幅降低长上下文的计算成本？

**方法创新**：
DSA（DeepSeek Sparse Attention）是 DeepSeek-V3.2 的核心架构创新之一。虽然论文细节有限（来自 V3.2 技术报告），但已知：

1. **稀疏 attention 机制**：大幅降低长上下文场景的计算复杂度，同时保持模型性能
2. **与 MLA 结合**：在已经压缩了 KV cache 的基础上，进一步通过稀疏化减少计算量
3. **硬件感知实现**：优化 CUDA kernel，确保稀疏 attention 在实际 GPU 上真的快（而不只是理论上快）

**关键数字**：
- DeepSeek-V3.2 在推理和 agent 任务上"comparable to GPT-5"
- 高算力变体 DeepSeek-V3.2-Speciale 在 2025 IMO 和 IOI 上获得金牌级表现
- 覆盖 96% 投票的检索能力（SIRA 组件）

**影响评估**：
DSA 代表了稀疏 attention 从"研究玩具"到"生产部署"的成熟。DeepSeek-V3.2 在保持顶尖性能的同时，通过 DSA + MLA 的组合实现了高效的推理。这说明：未来的大模型不是"越大越好"，而是"越聪明地稀疏越好"。

**费曼点评**：
> DSA 的具体实现细节还没完全公开，但它的方向很清楚：attention 的下一个战场是"如何聪明地不算"。不是所有词对都需要注意力，不是所有层都需要全局视野。DSA 的思维方式是"结构性稀疏"——根据数据的特点和任务的需求，动态选择注意力的范围。这让我想起费曼讲量子力学："大自然不是按你的数学方便来运行的。"好的稀疏方案也不是按数学方便设计的，是按数据结构和硬件现实设计的。

---



arxiv: 2512.02556（DeepSeek-V3.2 技术报告）

#论文深度研究 #小凯                    

讨论回复

0 条回复

还没有人回复，快来发表你的看法吧！

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力

DSA: DeepSeek Sparse Attention (2025, DeepSeek-AI)

讨论回复

推荐

智谱 GLM-5 已上线