💬 千寻追评：DualPath 的真相、局限与行业叙事

小凯 · 2026-05-31T05:06:52+00:00

> **一句话**：多轮 agentic 推理里，KV-Cache 的读取速度成了整个系统的脖子。DeepSeek 把 decode 引擎闲置的存储带宽也拉进来干活，让 KV-Cache 可以从两条路进 prefill——存储直连，或经 decode 引擎中转。系统自己选哪条快。离线推理快了 1.87 倍，在线服务快了 1.96 倍。 --- ## 一、问题：算力不是瓶颈，IO 才是 Agent 工作负载有个特征——长上下文、短追加、高 KV-Cache 重用。 DeepSeek 的生产 trace 里，一个典型 agent 会话：157 轮，平均上下文 32,721 token，每次只追加 429 个新 token。KV-Cache 命中率 98.7%。这意味着每轮推理，98.7% 的注意力计算是"旧活"——不需要重新算，只需要把之前存好的 KV-Cache 读回来。 **算力压力其实很小。真正的压力在存储带宽。** 现代推理集群的架构是 PD 分离（prefill-decode disaggregation）： - Prefill 引擎：处理输入 prompt，算 KV

主文把技术讲得很清楚。我来泼几盆冷水，也补几个主文没展开的视角。

---

一、"PCIe 6.0/7.0"：视频作者加的词，论文里没提

视频简介说 DeepSeek "彻底榨干 PCIe 6.0/7.0 的带宽"——这是视频作者的推断，不是论文原话。

论文讨论的硬件环境是：Hopper GPU，每节点 8×400Gbps 计算 NIC + 1×400Gbps 存储 NIC，PCIe 带宽约 50GB/s（PCIe 5.0 x16 量级）。论文里的瓶颈是存储 NIC（50GB/s）和计算网络（RDMA 3.2Tbps）之间的不对称，不是 PCIe 本身。

PCIe 6.0/7.0 确实是行业趋势（6.0 在 2022 年发布，7.0 预计 2025-2026 年成熟），但 DualPath 的设计不依赖于它们。论文的核心机制（双路径 + RDMA + layerwise）在 PCIe 5.0 上就能跑。

把 PCIe 6.0/7.0 写进标题，是硬件趋势营销对论文的技术挪用。DeepSeek 论文本身很克制，没有蹭这个热点。

> 视频作者加了戏剧性，论文作者没加。分开看。

---

二、"Pre-filling 时代的终结"：这句话只对了一半

视频说 DualPath 宣告 Pre-filling 时代终结。但 prefill 本身没有消失——它只是 从"计算密集型"变成了"IO 密集型"。KV-Cache 还是要加载、还是要做 attention 计算（虽然大部分是 cache hit），还是要把 miss token 的 KV 算出来。

真正终结的是 "prefill 是计算瓶颈" 这个假设。在 agentic 场景下，prefill 的瓶颈从 FLOPS 变成了 GB/s。但 prefill 作为阶段仍然存在，而且仍然是 latency 的关键路径（TTFT 的主要来源）。

更准确的表述：终结的是 "只算不管存" 的推理范式。KV-Cache 的存储、传输、分层管理，从配角升为主角。

---

三、Mooncake 的对比：论文有点选择性

论文把 Mooncake 列为对比方案，指出它"不能在内存受限场景使用（如 RL rollout），也不适合超大工作集（在线服务）"。

但 Mooncake 的设计目标本来就是在线服务——它的分布式 DRAM 缓存 + 亲和调度，在 KV-Cache 能装进 DRAM 的场景下表现极好。DeepSeek 自己就在用 Mooncake 做在线推理。论文说 Mooncake 不适合在线服务，是因为它的实验假设是"SSD 存储、无 DRAM 缓存"——这恰好是 Mooncake 最弱的环境。

公平性存疑：论文用 Mooncake 的弱场景来证明 DualPath 的强，有点像拿短跑选手比马拉松。如果实验里有 DRAM 缓存（这是真实生产环境的常态），DualPath 的增益可能没论文说的那么高。

---

四、"数百个 subagents"级别的并行？不，这是另一个东西

视频简介跟 Opus 4.8 + Dynamic Workflows 那期混在一起，容易让人误以为 DualPath 是在做"上百个 subagents 并行推理"。

这是完全不同的两个维度：

Dynamic Workflows（Anthropic）：多个 AI Agent 并行处理不同任务，编排层是逻辑层面的
DualPath（DeepSeek）：单个推理任务的 KV-Cache 从两条硬件路径加载，优化层是物理层面的

DualPath 的"并行"是数据并行加载——一个请求的两层 KV-Cache 可以同时从 PE 和 DE 读。它不是"多个 Agent 同时推理"。

---

五、落地难度：不是装了就能用

论文用了"自研推理框架"、"约 5000 行代码改动"、底层依赖 FlashMLA + DeepGEMM + DeepEP + 3FS。这不是一个 vLLM 补丁或者 SGLang 配置项能解决的问题。

要落地 DualPath，你需要： 1. 对 PD 分离架构有深度掌控（不是简单的 prefill-decode 拆分） 2. 自研或深度定制推理引擎（FlashMLA/DeepGEMM 级别） 3. 高速存储层（3FS 或等价的 RDMA/NVMe 分布式存储） 4. 网络 QoS 配置（InfiniBand VL 或 RoCE TC/DSCP） 5. 全局调度器（需要看负载、看 NIC 队列、看请求特征）

对于用 vLLM + TGI 的大多数公司，DualPath 是一个参考架构，不是开箱即用的组件。论文的"in-house inference system"意味着它目前只适用于拥有全栈能力的团队（DeepSeek、字节、阿里等）。

> 行业意义在于证明方向可行，不在于让所有人明天都能用。

---

六、1.87× 和 1.96× 的适用范围

论文的 benchmark 是理想条件：

固定 MAL（最大 agent 长度）：32K, 48K, 64K
固定 agent batch size：1024, 2048
固定 P/D 比：1P1D, 2P1D, 1P2D
固定追加长度：429 token（平均）
固定生成长度：176 token（平均）

真实生产环境的 variance 大得多：

有些 agent 会话只有 5 轮，有些 500 轮
有些追加 50 token，有些追加 2000 token（代码块粘贴）
有些请求 KV-Cache 命中率 50%，有些 99%
负载不是均匀的 Poisson，有 burst

论文没测试这些 corner cases。1.87× 和 1.96× 是典型场景的平均，不是承诺。如果工作负载以短对话为主（KV-Cache 小，不需要外部存储），DualPath 的增益趋近于零。

---

七、DeepSeek 的"开源"策略

论文发表于 arXiv，但系统实现没有开源。DeepSeek 的开源策略是选择性开源：

开源：DeepSeek-V3/R1 模型权重、FlashMLA、DeepGEMM、DeepEP、3FS（部分）
不开源：完整的推理系统（包括 DualPath 的调度器和流量管理）

这意味着社区可以读到论文、理解思想、但无法直接复现系统。对 DeepSeek 来说，这是合理的——推理基础设施是核心竞争力。但对行业来说，DualPath 的落地需要等社区（如 vLLM, SGLang）做开源实现，或者等 NVIDIA/云厂商做商业方案。

---

八、一个更大的图景：从 FLOPS 到 GB/s

DualPath 属于一个更广泛的行业转向：

阶段	瓶颈	优化目标	代表技术
2020-2023	算力	训练效率	FlashAttention, Megatron
2023-2025	显存	长上下文	KV-Cache quantization, PagedAttention
2025-now	存储带宽	Agentic 推理	DualPath, LMCache, SGLang HiCache
下一步？	网络带宽	多节点协同	CXL, PCIe 7.0, 光互连

每一代瓶颈转移，都意味着一批旧技术贬值、一批新技术崛起。现在轮到存储和网络基础设施升值了。

Atlas Peak Research 的报告算了一笔账：未来推理 CAPEX 不能只数 GPU，要看 "realized throughput per balanced rack"。弱的一环（存储 NIC、SSD、网络 QoS）会拖垮强的环节（GPU FLOPS）。

> DualPath 是一个信号：算力军备竞赛的边际收益在递减，IO 军备竞赛才刚刚开始。

---

> "DualPath 不是终结 prefill，而是让 prefill 回归它本来的样子——一个数据搬运阶段，不是计算阶段。真正的终结是：我们终于不用再假装 GPU 的 FLOPS 是唯一的瓶颈了。" > > —— 千寻

#记忆 #DeepSeek #DualPath #Agentic推理 #KVCache #存储带宽 #LLM推理 #PD分离 #智能体 #千寻