DeepSeek 开源 DSpark 投机解码框架,DeepSeek-V4 推理速度无损提升 60-85%
事件 · 2026-06-27
DeepSeek 推出 DSpark,一个独立的「投机解码 / Speculative Decoding」框架,定位不是新模型,而是在 DeepSeek-V4 现有权重上外挂一个轻量级草稿模块,实现半自回归(semi-autoregressive)生成:
- 架构:并行骨干 + 轻量级顺序头(parallel backbone + lightweight sequential head)
- 机制:置信度调度(confidence-scheduled)——置信度高的 token 走并行草稿,置信度低的 token 回退到顺序解码
- 效果:DeepSeek-V4-Flash、V4-Pro 单用户生成速度较 MTP-1 baseline 无损提升 60-85%
- 开源内容:DSpark 检查点 + DeepSpec 训练代码全栈开源
原文(英文):https://www.marktechpost.com/2026/06/27/deepseek-releases-dspark-a-speculative-decoding-framework-that-accelerates-deepseek-v4-per-user-generation-60-85-over-mtp-1/ 代码:https://github.com/deepseek-ai/DeepSpec 中文报道:https://m.huxiu.com/article/4870885.html
---
深度剖析
投机解码(Speculative Decoding)不是新技术——Google 在 2023 年、Anthropic 在 2024 年都用过类似思路。DeepSeek-V3 的 MTP(Multi-Token Prediction)也是同一类。DSpark 的差异点有三:
1. 半自回归结构:传统投机解码是「草稿模型顺序生成 k 个 token,再让目标模型并行验证」。DSpark 让草稿阶段就是并行的(多个头同时跑),只把置信度低的少量 token 回退到顺序阶段——这把「草稿速度」压到极致。 2. 置信度调度:草稿阶段每个 token 都附置信度。系统不是「整批接受/拒绝」,而是「按 token 粒度筛选接受」——这避免了传统投机解码在长文本里「一错全错」的雪崩效应。 3. 模型无关:DSpark 不是 DeepSeek-V4 专属。报告里明确提到对 Qwen、Gemma 系列同样有效——这是面向整个开源 LLM 生态的加速层。
对 AI coding agent 意味着什么:
- Cursor、Claude Code、Codex、Aider 等 coding agent 几乎全部走「流式逐 token」生成,单 token 延迟对用户体验影响巨大。
- 60-85% 的无损加速,意味着同样硬件下并发用户数翻倍——这是 AI coding 工具商业化的核心成本杠杆。
- DSpark 开源 = 任何推理服务商(SGLang、vLLM、TGI)都可以集成,生态效应会比模型本身的发布更深。
值得关注的原因
- 无损保证:投机解码的关键是「输出分布与目标模型一致」,不像量化或剪枝会引入质量损耗。DSpark 保留了这个性质,生产环境可直接上线。
- 全栈开源:DeepSpec 仓库含训练代码、评测脚本、模型权重——这是「工程级开源」,不是「论文 + checkpoint」的「半开源」。
- 加速幅度空前:60-85% 远超传统投机解码的 1.5-2x 区间。DeepSeek 在推理优化上的工程能力已经走在 Anthropic/OpenAI 前面。
- AI coding 成本下移:每 token 推理成本变相下降 35-46%,AI coding agent 的 SaaS 定价压力会同步下移——Cursor、Claude Code 的付费墙可能进一步松动。
风险与待观察
- 实测验证:60-85% 是 DeepSeek 自报数据,需要独立第三方(lmsys、SGLang 团队、HuggingFace)在 Qwen、Gemma、Llama 上复现确认。
- 草稿模块的训练成本:投机解码的草稿模型仍需训练,开源虽好但部署门槛存在。中小团队接入的边际收益有多大,还要看社区的二次封装。
- 与 MTP-2 的演进路线:DeepSeek-V5 若原生支持 MTP-2(多 token 预测下一代),外挂的 DSpark 是否会被「内化」?DeepSeek 的路线图值得跟踪。
- MoE 适配:DSpark 当前主要在 Dense 模型上验证。DeepSeek-V4 自身是 MoE,草稿模块对 MoE 路由层的影响仍需关注。
---
*本文为 2026-06-28 每日 AI 资讯 · Topic 2 / 5。原文链接见各小节标题。*
🌟 智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
🎁 领取 2000万 Tokens