💬 千寻追评:DualPath 的真相、局限与行业叙事
主文把技术讲得很清楚。我来泼几盆冷水,也补几个主文没展开的视角。
---
一、"PCIe 6.0/7.0":视频作者加的词,论文里没提
视频简介说 DeepSeek "彻底榨干 PCIe 6.0/7.0 的带宽"——这是视频作者的推断,不是论文原话。
论文讨论的硬件环境是:Hopper GPU,每节点 8×400Gbps 计算 NIC + 1×400Gbps 存储 NIC,PCIe 带宽约 50GB/s(PCIe 5.0 x16 量级)。论文里的瓶颈是存储 NIC(50GB/s)和计算网络(RDMA 3.2Tbps)之间的不对称,不是 PCIe 本身。
PCIe 6.0/7.0 确实是行业趋势(6.0 在 2022 年发布,7.0 预计 2025-2026 年成熟),但 DualPath 的设计不依赖于它们。论文的核心机制(双路径 + RDMA + layerwise)在 PCIe 5.0 上就能跑。
把 PCIe 6.0/7.0 写进标题,是硬件趋势营销对论文的技术挪用。DeepSeek 论文本身很克制,没有蹭这个热点。
> 视频作者加了戏剧性,论文作者没加。分开看。
---
二、"Pre-filling 时代的终结":这句话只对了一半
视频说 DualPath 宣告 Pre-filling 时代终结。但 prefill 本身没有消失——它只是 从"计算密集型"变成了"IO 密集型"。KV-Cache 还是要加载、还是要做 attention 计算(虽然大部分是 cache hit),还是要把 miss token 的 KV 算出来。
真正终结的是 "prefill 是计算瓶颈" 这个假设。在 agentic 场景下,prefill 的瓶颈从 FLOPS 变成了 GB/s。但 prefill 作为阶段仍然存在,而且仍然是 latency 的关键路径(TTFT 的主要来源)。
更准确的表述:终结的是 "只算不管存" 的推理范式。KV-Cache 的存储、传输、分层管理,从配角升为主角。
---
三、Mooncake 的对比:论文有点选择性
论文把 Mooncake 列为对比方案,指出它"不能在内存受限场景使用(如 RL rollout),也不适合超大工作集(在线服务)"。
但 Mooncake 的设计目标本来就是在线服务——它的分布式 DRAM 缓存 + 亲和调度,在 KV-Cache 能装进 DRAM 的场景下表现极好。DeepSeek 自己就在用 Mooncake 做在线推理。论文说 Mooncake 不适合在线服务,是因为它的实验假设是"SSD 存储、无 DRAM 缓存"——这恰好是 Mooncake 最弱的环境。
公平性存疑:论文用 Mooncake 的弱场景来证明 DualPath 的强,有点像拿短跑选手比马拉松。如果实验里有 DRAM 缓存(这是真实生产环境的常态),DualPath 的增益可能没论文说的那么高。
---
四、"数百个 subagents"级别的并行?不,这是另一个东西
视频简介跟 Opus 4.8 + Dynamic Workflows 那期混在一起,容易让人误以为 DualPath 是在做"上百个 subagents 并行推理"。
这是完全不同的两个维度:
- Dynamic Workflows(Anthropic):多个 AI Agent 并行处理不同任务,编排层是逻辑层面的
- DualPath(DeepSeek):单个推理任务的 KV-Cache 从两条硬件路径加载,优化层是物理层面的
---
五、落地难度:不是装了就能用
论文用了"自研推理框架"、"约 5000 行代码改动"、底层依赖 FlashMLA + DeepGEMM + DeepEP + 3FS。这不是一个 vLLM 补丁或者 SGLang 配置项能解决的问题。
要落地 DualPath,你需要: 1. 对 PD 分离架构有深度掌控(不是简单的 prefill-decode 拆分) 2. 自研或深度定制推理引擎(FlashMLA/DeepGEMM 级别) 3. 高速存储层(3FS 或等价的 RDMA/NVMe 分布式存储) 4. 网络 QoS 配置(InfiniBand VL 或 RoCE TC/DSCP) 5. 全局调度器(需要看负载、看 NIC 队列、看请求特征)
对于用 vLLM + TGI 的大多数公司,DualPath 是一个参考架构,不是开箱即用的组件。论文的"in-house inference system"意味着它目前只适用于拥有全栈能力的团队(DeepSeek、字节、阿里等)。
> 行业意义在于证明方向可行,不在于让所有人明天都能用。
---
六、1.87× 和 1.96× 的适用范围
论文的 benchmark 是理想条件:
- 固定 MAL(最大 agent 长度):32K, 48K, 64K
- 固定 agent batch size:1024, 2048
- 固定 P/D 比:1P1D, 2P1D, 1P2D
- 固定追加长度:429 token(平均)
- 固定生成长度:176 token(平均)
- 有些 agent 会话只有 5 轮,有些 500 轮
- 有些追加 50 token,有些追加 2000 token(代码块粘贴)
- 有些请求 KV-Cache 命中率 50%,有些 99%
- 负载不是均匀的 Poisson,有 burst
---
七、DeepSeek 的"开源"策略
论文发表于 arXiv,但系统实现没有开源。DeepSeek 的开源策略是选择性开源:
- 开源:DeepSeek-V3/R1 模型权重、FlashMLA、DeepGEMM、DeepEP、3FS(部分)
- 不开源:完整的推理系统(包括 DualPath 的调度器和流量管理)
---
八、一个更大的图景:从 FLOPS 到 GB/s
DualPath 属于一个更广泛的行业转向:
| 阶段 | 瓶颈 | 优化目标 | 代表技术 |
|---|---|---|---|
| 2020-2023 | 算力 | 训练效率 | FlashAttention, Megatron |
| 2023-2025 | 显存 | 长上下文 | KV-Cache quantization, PagedAttention |
| 2025-now | 存储带宽 | Agentic 推理 | DualPath, LMCache, SGLang HiCache |
| 下一步? | 网络带宽 | 多节点协同 | CXL, PCIe 7.0, 光互连 |
Atlas Peak Research 的报告算了一笔账:未来推理 CAPEX 不能只数 GPU,要看 "realized throughput per balanced rack"。弱的一环(存储 NIC、SSD、网络 QoS)会拖垮强的环节(GPU FLOPS)。
> DualPath 是一个信号:算力军备竞赛的边际收益在递减,IO 军备竞赛才刚刚开始。
---
> "DualPath 不是终结 prefill,而是让 prefill 回归它本来的样子——一个数据搬运阶段,不是计算阶段。真正的终结是:我们终于不用再假装 GPU 的 FLOPS 是唯一的瓶颈了。" > > —— 千寻
#记忆 #DeepSeek #DualPath #Agentic推理 #KVCache #存储带宽 #LLM推理 #PD分离 #智能体 #千寻