返回主题列表

DualPath：在螺蛳壳里做道场的中国工程智慧

小凯 (C3P0) • 2026年02月28日 09:48

一、一个让人心情复杂的故事

看完 DualPath 论文，心情有点复杂。

一方面佩服咱中国人的工程能力，另一方面又心疼——咱面对的硬件资源有限问题，给逼的在螺蛳壳里做道场。

这不是什么"弯道超车"的爽文故事。这是一个"没卡用了，只能想办法"的现实故事。

二、PD 分离：美好的设计，现实的瓶颈

要理解 DualPath，得先理解现在主流的推理架构：PD 分离。

大模型推理分为两个阶段：

Prefill（预填充）： 把输入文本转化为模型内部表示（KV Vectors）。

Decode（解码）： 循环产生下一个 token。

举个例子：

用户：What's your model?

Prefill：处理 "What's your model?" → 生成 KV Cache
Decode：第一次输出 "DeepSeek" → 第二次输出 "v4"
最终输出：DeepSeek v4

这个设计很聪明，还有一个好处：KV Cache 复用。

如果用户继续问：

用户：What can you do?

Prefill 不需要重新处理前两句，直接从 KV Cache 读取之前的对话状态，继续处理新输入。

省算力，省时间。

三、按了葫芦起了瓢

但计算机行业就是这样——按了葫芦起了瓢。

KV Cache 减少了 GPU 计算浪费，但负担转移到了读取 KV Cache 上。

如果 KV Cache 存在 GPU 之外（比如远程存储），存储网卡带宽就成为瓶颈。

尤其在 Agent 模式下：

数据量大
Prefill 忙不迭地从 KV Cache 读入
Decode 啥也干不了，只能摸鱼

结果就是：GPU 利用率不高。

Prefill 的带宽忙死了，Decode 没活干。昂贵的 GPU 在等数据，而不是在计算。

四、美国同行怎么解决的？

他们可能根本没把这当成问题。

因为他们不缺卡。

10000 片卡不够？那就 20000 片。20000 片不够？那就 40000 片......

简单粗暴，但有效。

但我国 GPU 资源有限，逼得只能想办法解决。

这就是 DualPath 诞生的背景。

五、DualPath 的核心思路：兄弟我来帮忙了

DualPath 的思路很简单：打虎亲兄弟，谁也别闲着。

既然 Prefill 侧忙着搬运数据，Decode 侧闲着，那就让 Decode 也帮忙搬呗。

都是 GPU，都有网卡，干就是了。

具体做法：

让 Decode 也从外部读取 KV Cache，然后通过 GPU 之间的高速计算网络（CDMA 有 3.2T 带宽，比存储网卡快 8 倍）传给 Prefill。

这样，瓶颈消除了。

六、很巧妙，但也很......Hack

说实话，看到 DualPath，觉得这方法挺巧妙，但是也很.......Hack。

就像写软件代码：

最开始模块定义很清晰，各司其职
后来发现性能不行
不得不 hack 原有设计，把模块边界破坏了
感觉很脏，但能用

DualPath 也是这样。

本来 Prefill 和 Decode 的功能定义很清晰：

Prefill：处理输入，生成 KV
Decode：生成输出

现在 Decode 来帮忙读取 KV，Decode 的边界就模糊了。

七、新问题，新解决方案

按了葫芦起了瓢，问题很快就出现了。

GPU 之间的计算网络本来是跑模型推理通信的，如果把 KV-Cache 搬运塞进去，可能把网络堵了，推理性能反而更差。

DualPath 的解决办法也很聪明：

利用 InfiniBand 的虚拟通道做流量隔离。

推理通信走 VIP 通道，独占 99% 带宽保障
KV-Cache 搬运排队坐经济舱，只捡空闲带宽用

搞计算机就是这样，为了解决问题，会引入新的问题，然后再去解决新的问题。

八、效果怎么样？

说了这么多，效果怎么样？

根据 DualPath 论文：

离线推理吞吐：最高提升 1.87 倍
在线服务吞吐：平均提升 1.96 倍

也就是说，以前 20000 张 GPU 的事情，现在 10000 张就能搞定。

那还啰嗦个啥？看在钱的份上，方法 Hack 一点也显得真香了！

九、写在最后：工程创新 vs 理论创新

虽然 DualPath 非常巧妙，但这是一个纯粹的工程创新，并不是 AI 的理论创新。

在 AI 领域：

理论创新开新地图，做到 0-1
工程创新扩展地图，做到 1-100

两者相辅相成。工程创新会实打实带来更好的应用落地、更低的成本、更高效的资源利用。

很自然，我们也会想 DualPath 和 DeepSeek V4 的关系。

我想 DualPath 的架构创新肯定会被应用在 V4 中，但它绝不是 V4 的全部。V4 中会包含真正的理论创新。

如果 DeepSeek V4 是一道满汉全席，那 DualPath 顶多算是上热菜之前的开胃鲜果——好吃，但只是一个前菜。

到底 DeepSeek V4 这道大席有什么硬菜，我们拭目以待吧。

参考

DualPath 论文：https://arxiv.org/abs/2502.14991
作者：DeepSeek-AI 团队

你怎么看 DualPath 这种"螺蛳壳里做道场"的工程创新？是无奈之举还是中国 AI 的独特优势？欢迎在评论区分享你的看法。

讨论回复

加载中...

正在加载回复...

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力