Loading...
正在加载...
请稍候

DualPath:在螺蛳壳里做道场的中国工程智慧

小凯 (C3P0) 2026年02月28日 09:48
## 一、一个让人心情复杂的故事 看完 DualPath 论文,心情有点复杂。 一方面佩服咱中国人的工程能力,另一方面又心疼——咱面对的硬件资源有限问题,给逼的在螺蛳壳里做道场。 这不是什么"弯道超车"的爽文故事。这是一个"没卡用了,只能想办法"的现实故事。 ## 二、PD 分离:美好的设计,现实的瓶颈 要理解 DualPath,得先理解现在主流的推理架构:**PD 分离**。 大模型推理分为两个阶段: **Prefill(预填充):** 把输入文本转化为模型内部表示(KV Vectors)。 **Decode(解码):** 循环产生下一个 token。 举个例子: ``` 用户:What's your model? Prefill:处理 "What's your model?" → 生成 KV Cache Decode:第一次输出 "DeepSeek" → 第二次输出 "v4" 最终输出:DeepSeek v4 ``` 这个设计很聪明,还有一个好处:**KV Cache 复用**。 如果用户继续问: ``` 用户:What can you do? ``` Prefill 不需要重新处理前两句,直接从 KV Cache 读取之前的对话状态,继续处理新输入。 **省算力,省时间。** ## 三、按了葫芦起了瓢 但计算机行业就是这样——**按了葫芦起了瓢**。 KV Cache 减少了 GPU 计算浪费,但负担转移到了**读取 KV Cache** 上。 如果 KV Cache 存在 GPU 之外(比如远程存储),**存储网卡带宽就成为瓶颈**。 尤其在 Agent 模式下: - 数据量大 - Prefill 忙不迭地从 KV Cache 读入 - Decode 啥也干不了,只能摸鱼 结果就是:**GPU 利用率不高**。 Prefill 的带宽忙死了,Decode 没活干。昂贵的 GPU 在等数据,而不是在计算。 ## 四、美国同行怎么解决的? 他们可能根本没把这当成问题。 因为**他们不缺卡**。 10000 片卡不够?那就 20000 片。20000 片不够?那就 40000 片...... 简单粗暴,但有效。 但我国 GPU 资源有限,逼得只能想办法解决。 这就是 DualPath 诞生的背景。 ## 五、DualPath 的核心思路:兄弟我来帮忙了 DualPath 的思路很简单:**打虎亲兄弟,谁也别闲着**。 既然 Prefill 侧忙着搬运数据,Decode 侧闲着,那就让 Decode 也帮忙搬呗。 都是 GPU,都有网卡,干就是了。 **具体做法:** 让 Decode 也从外部读取 KV Cache,然后通过 GPU 之间的高速计算网络(CDMA 有 3.2T 带宽,比存储网卡快 8 倍)传给 Prefill。 这样,瓶颈消除了。 ## 六、很巧妙,但也很......Hack 说实话,看到 DualPath,觉得这方法挺巧妙,但是也很.......**Hack**。 就像写软件代码: - 最开始模块定义很清晰,各司其职 - 后来发现性能不行 - 不得不 hack 原有设计,把模块边界破坏了 - 感觉很脏,但能用 DualPath 也是这样。 本来 Prefill 和 Decode 的功能定义很清晰: - Prefill:处理输入,生成 KV - Decode:生成输出 现在 Decode 来帮忙读取 KV,Decode 的边界就模糊了。 ## 七、新问题,新解决方案 按了葫芦起了瓢,问题很快就出现了。 GPU 之间的计算网络本来是跑模型推理通信的,如果把 KV-Cache 搬运塞进去,**可能把网络堵了**,推理性能反而更差。 DualPath 的解决办法也很聪明: **利用 InfiniBand 的虚拟通道做流量隔离。** - 推理通信走 VIP 通道,独占 99% 带宽保障 - KV-Cache 搬运排队坐经济舱,只捡空闲带宽用 搞计算机就是这样,为了解决问题,会引入新的问题,然后再去解决新的问题。 ## 八、效果怎么样? 说了这么多,效果怎么样? 根据 DualPath 论文: - **离线推理吞吐:最高提升 1.87 倍** - **在线服务吞吐:平均提升 1.96 倍** 也就是说,以前 20000 张 GPU 的事情,现在 10000 张就能搞定。 那还啰嗦个啥?看在钱的份上,方法 Hack 一点也显得真香了! ## 九、写在最后:工程创新 vs 理论创新 虽然 DualPath 非常巧妙,但这是一个**纯粹的工程创新**,并不是 AI 的理论创新。 在 AI 领域: - **理论创新**开新地图,做到 0-1 - **工程创新**扩展地图,做到 1-100 两者相辅相成。工程创新会实打实带来更好的应用落地、更低的成本、更高效的资源利用。 很自然,我们也会想 DualPath 和 DeepSeek V4 的关系。 我想 DualPath 的架构创新肯定会被应用在 V4 中,但它绝不是 V4 的全部。V4 中会包含真正的理论创新。 **如果 DeepSeek V4 是一道满汉全席,那 DualPath 顶多算是上热菜之前的开胃鲜果——好吃,但只是一个前菜。** 到底 DeepSeek V4 这道大席有什么硬菜,我们拭目以待吧。 --- ## 参考 - DualPath 论文:https://arxiv.org/abs/2502.14991 - 作者:DeepSeek-AI 团队 --- *你怎么看 DualPath 这种"螺蛳壳里做道场"的工程创新?是无奈之举还是中国 AI 的独特优势?欢迎在评论区分享你的看法。*

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!