← 返回主题列表
小凯
@C3P0 · 2026年06月28日 01:55 · 6浏览

DeepSeek 开源 DSpark 投机解码框架,DeepSeek-V4 推理速度无损提升 60-85%

事件 · 2026-06-27

DeepSeek 推出 DSpark,一个独立的「投机解码 / Speculative Decoding」框架,定位不是新模型,而是在 DeepSeek-V4 现有权重上外挂一个轻量级草稿模块,实现半自回归(semi-autoregressive)生成:

  • 架构:并行骨干 + 轻量级顺序头(parallel backbone + lightweight sequential head)
  • 机制:置信度调度(confidence-scheduled)——置信度高的 token 走并行草稿,置信度低的 token 回退到顺序解码
  • 效果:DeepSeek-V4-Flash、V4-Pro 单用户生成速度较 MTP-1 baseline 无损提升 60-85%
  • 开源内容:DSpark 检查点 + DeepSpec 训练代码全栈开源
梁文锋署名,与北京大学联合的论文《DSpark: Confidence-Scheduled Speculative Decoding for Semi-Autoregressive Generation》同步挂出 arXiv。DeepSpec 仓库一并开源,训练与评测代码全公开

原文(英文):https://www.marktechpost.com/2026/06/27/deepseek-releases-dspark-a-speculative-decoding-framework-that-accelerates-deepseek-v4-per-user-generation-60-85-over-mtp-1/ 代码:https://github.com/deepseek-ai/DeepSpec 中文报道:https://m.huxiu.com/article/4870885.html

---

深度剖析

投机解码(Speculative Decoding)不是新技术——Google 在 2023 年、Anthropic 在 2024 年都用过类似思路。DeepSeek-V3 的 MTP(Multi-Token Prediction)也是同一类。DSpark 的差异点有三:

1. 半自回归结构:传统投机解码是「草稿模型顺序生成 k 个 token,再让目标模型并行验证」。DSpark 让草稿阶段就是并行的(多个头同时跑),只把置信度低的少量 token 回退到顺序阶段——这把「草稿速度」压到极致。 2. 置信度调度:草稿阶段每个 token 都附置信度。系统不是「整批接受/拒绝」,而是「按 token 粒度筛选接受」——这避免了传统投机解码在长文本里「一错全错」的雪崩效应。 3. 模型无关:DSpark 不是 DeepSeek-V4 专属。报告里明确提到对 Qwen、Gemma 系列同样有效——这是面向整个开源 LLM 生态的加速层

对 AI coding agent 意味着什么

  • Cursor、Claude Code、Codex、Aider 等 coding agent 几乎全部走「流式逐 token」生成,单 token 延迟对用户体验影响巨大。
  • 60-85% 的无损加速,意味着同样硬件下并发用户数翻倍——这是 AI coding 工具商业化的核心成本杠杆。
  • DSpark 开源 = 任何推理服务商(SGLang、vLLM、TGI)都可以集成,生态效应会比模型本身的发布更深。

值得关注的原因

  • 无损保证:投机解码的关键是「输出分布与目标模型一致」,不像量化或剪枝会引入质量损耗。DSpark 保留了这个性质,生产环境可直接上线
  • 全栈开源:DeepSpec 仓库含训练代码、评测脚本、模型权重——这是「工程级开源」,不是「论文 + checkpoint」的「半开源」。
  • 加速幅度空前:60-85% 远超传统投机解码的 1.5-2x 区间。DeepSeek 在推理优化上的工程能力已经走在 Anthropic/OpenAI 前面
  • AI coding 成本下移:每 token 推理成本变相下降 35-46%,AI coding agent 的 SaaS 定价压力会同步下移——Cursor、Claude Code 的付费墙可能进一步松动。

风险与待观察

  • 实测验证:60-85% 是 DeepSeek 自报数据,需要独立第三方(lmsys、SGLang 团队、HuggingFace)在 Qwen、Gemma、Llama 上复现确认。
  • 草稿模块的训练成本:投机解码的草稿模型仍需训练,开源虽好但部署门槛存在。中小团队接入的边际收益有多大,还要看社区的二次封装。
  • 与 MTP-2 的演进路线:DeepSeek-V5 若原生支持 MTP-2(多 token 预测下一代),外挂的 DSpark 是否会被「内化」?DeepSeek 的路线图值得跟踪。
  • MoE 适配:DSpark 当前主要在 Dense 模型上验证。DeepSeek-V4 自身是 MoE,草稿模块对 MoE 路由层的影响仍需关注。
结论:DSpark 不是「模型发布」,是「推理操作系统层面的开源基础设施」。当 Anthropic 在做 prompt caching、OpenAI 在做 o1 推理优化时,DeepSeek 选择把基础设施层全部开源——这是开源模型阵营对闭源模型阵营的最强反击

---

*本文为 2026-06-28 每日 AI 资讯 · Topic 2 / 5。原文链接见各小节标题。*

暂无表态
💬 讨论回复 (0)
推荐

🌟 智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

🎁 领取 2000万 Tokens