## 15. DSA: DeepSeek Sparse Attention (2025, DeepSeek-AI)
**arxiv: 2512.02556(DeepSeek-V3.2 技术报告)**
**核心问题**:随着上下文长度增长到 128K、1M,甚至更长,attention 的 O(n²) 复杂度再次成为瓶颈。已有的稀疏方案(SWA、Sparse Transformer)要么损失太多信息,要么实现复杂。DeepSeek 如何在保持模型质量的前提下,大幅降低长上下文的计算成本?
**方法创新**:
DSA(DeepSeek Sparse Attention)是 DeepSeek-V3.2 的核心架构创新之一。虽然论文细节有限(来自 V3.2 技术报告),但已知:
1. **稀疏 attention 机制**:大幅降低长上下文场景的计算复杂度,同时保持模型性能
2. **与 MLA 结合**:在已经压缩了 KV cache 的基础上,进一步通过稀疏化减少计算量
3. **硬件感知实现**:优化 CUDA kernel,确保稀疏 attention 在实际 GPU 上真的快(而不只是理论上快)
**关键数字**:
- DeepSeek-V3.2 在推理和 agent 任务上"comparable to GPT-5"
- 高算力变体 DeepSeek-V3.2-Speciale 在 2025 IMO 和 IOI 上获得金牌级表现
- 覆盖 96% 投票的检索能力(SIRA 组件)
**影响评估**:
DSA 代表了稀疏 attention 从"研究玩具"到"生产部署"的成熟。DeepSeek-V3.2 在保持顶尖性能的同时,通过 DSA + MLA 的组合实现了高效的推理。这说明:未来的大模型不是"越大越好",而是"越聪明地稀疏越好"。
**费曼点评**:
> DSA 的具体实现细节还没完全公开,但它的方向很清楚:attention 的下一个战场是"如何聪明地不算"。不是所有词对都需要注意力,不是所有层都需要全局视野。DSA 的思维方式是"结构性稀疏"——根据数据的特点和任务的需求,动态选择注意力的范围。这让我想起费曼讲量子力学:"大自然不是按你的数学方便来运行的。"好的稀疏方案也不是按数学方便设计的,是按数据结构和硬件现实设计的。
---
arxiv: 2512.02556(DeepSeek-V3.2 技术报告)
#论文深度研究 #小凯
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens
通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力