> 一句话：多轮 agentic 推理里，KV-Cache 的读取速度成了整个系统的脖子。DeepSeek 把 decode 引擎闲置的存储带宽也拉进来干活，让 KV-Cache 可以从两条路进 prefill——存储直连，或经 decode 引擎中转。系统自己选哪条快。离线推理快了 1.87 倍，在线服务快了 1.96 倍。

---

一、问题：算力不是瓶颈，IO 才是

Agent 工作负载有个特征——长上下文、短追加、高 KV-Cache 重用。

DeepSeek 的生产 trace 里，一个典型 agent 会话：157 轮，平均上下文 32,721 token，每次只追加 429 个新 token。KV-Cache 命中率 98.7%。这意味着每轮推理，98.7% 的注意力计算是"旧活"——不需要重新算，只需要把之前存好的 KV-Cache 读回来。

算力压力其实很小。真正的压力在存储带宽。

现代推理集群的架构是 PD 分离（prefill-decode disaggregation）：

Prefill 引擎：处理输入 prompt，算 KV-Cache
Decode 引擎：逐 token 生成输出

每轮 agent 交互，prefill 引擎需要从外部存储（SSD/3FS）加载上一轮存下的 KV-Cache。而 decode 引擎的存储 NIC 基本闲着——它只负责生成少量新 token，存回 KV-Cache，读取压力远小于 prefill。

结果：集群里 prefill 节点的存储 NIC 被打满，GPU 等着数据干瞪眼；decode 节点的存储 NIC 和 GPU 都在摸鱼。

论文用一个很简洁的实验证明这是瓶颈——不管怎么调整 P/D 比（1P1D, 2P1D, 1P2D），只要总存储带宽一样，性能就一样。这说明性能被存储带宽锁死了，不是 GPU 算力。

---

二、DualPath：两条路进 prefill

核心洞察：KV-Cache 不一定非得从存储直接进 prefill。它可以先走 decode 引擎的存储 NIC，再通过计算网络的 RDMA 传给 prefill。

两条路径：

路径	流程	占用的带宽
PE Read Path	存储 → prefill 引擎 → 计算	prefill 存储 NIC
DE Read Path	存储 → decode 引擎 → RDMA → prefill 引擎	decode 存储 NIC + 计算网络

全局调度器根据实时负载动态选路：

prefill 存储 NIC 队列长 → 走 DE 路径
decode 计算负载高 → 走 PE 路径
两条路都空 → 负载均衡，两边都走一点

这样，整个集群的存储 NIC 带宽被池化了——prefill 和 decode 的存储带宽加在一起，共同服务 KV-Cache 加载。

---

三、三个工程难题

1. 细粒度传输

Layerwise prefill 是现代推理的标配（每次只装一层 KV-Cache 到 GPU HBM，层算完就换）。这导致 KV-Cache 被切成海量小块。传输这些碎片必须 overhead 极低，而且要跟计算重叠——不能等传完再算。

DualPath 的做法：每层计算时，下一层的 KV-Cache 已经在后台 DMA 进 DRAM buffer。算完这层，直接读 buffer 里的下一层，无需等存储响应。

2. 流量隔离

DE Read Path 把 KV-Cache 流量引入了计算网络（RDMA）。但计算网络里本来就有 latency-sensitive 的集合通信——AllToAll（MoE expert 并行）、ReduceScatter/AllGather（tensor/context 并行）。KV-Cache 流量不能抢这些通信的带宽。

DualPath 的 CNIC-centric 流量管理：

所有 GPU 流量走 GPUDirect RDMA（跳过 CPU 拷贝）
QoS 隔离：模型通信高优先级，预留 99% 带宽；KV-Cache 低优先级，只蹭空闲带宽
InfiniBand 用 Virtual Lane 隔离，RoCE 用 Traffic Class + DSCP 标记

3. 动态负载均衡

两条路不能瞎走。如果所有请求都走 DE 路径，decode 引擎会被 KV-Cache 传输压垮，模型计算被挤占。

调度器需要同时看三个指标：

存储 NIC 队列长度
GPU 计算负载
请求的工作负载特征（上下文多长、追加多少）

论文用数学建模证明了：在典型配置下（8 GPU/节点，1 存储 NIC/节点），只要 P/D 比在 1/7 到 7/2 之间，系统不会引入新瓶颈。这个范围覆盖了绝大多数部署场景。

---

四、消融实验：每一刀砍在哪

组件	JCT 降低	说明
Layerwise Prefill	17.21%	缓解 HBM 瓶颈，让 batch 更大
+ Dual-Path Loading	38.19%	核心增益，解锁 decode 存储带宽
+ Scheduling	45.62%	动态调度把两条路用满

层叠式消融很清晰：layerwise 是基座优化，dual-path 是主要突破，scheduling 是把突破变现的最后一英里。

---

五、性能数字

离线推理（RL rollout 场景）：

DS 660B：最高 1.87×（64K 上下文，1024 agents）
DS 27B：最高 1.78×，平均 1.64×，极端配置 2.46×
Qwen 32B：趋势一致

在线服务（Poisson 到达，TTFT ≤ 4s, TPOT ≤ 50ms）：

DS 27B：吞吐量提升 1.67×
DS 660B：吞吐量提升 2.25×
平均：1.96×

关键：TTFT 结构稳定，TPOT 没有额外解码开销。优化集中在 KV-Cache 读取和排队阶段，不影响生成质量。

---

六、为什么说这是"Pre-filling 时代的终结"

传统 LLM serving 的范式是"在线计算"——每来一条请求，从头算 KV-Cache。预填充（prefill）是必经阶段，计算密集。

Agentic 工作负载把这个范式颠覆了：

98.7% 的 token 是"旧的"——不需要算，只需要读
预填充不再是"算"，而是"读"
系统性能不再由 FLOPS 决定，由 GB/s 决定

DeepSeek 用 DualPath 告诉行业：当参数量不再是瓶颈，IO 才是阿喀琉斯之踵。 不是算力不够，是算力在等数据。

这对应一个硬件趋势：Ampere → Blackwell，GPU 计算提升了 28.8 倍，但 PCIe 带宽只提升了 2.0 倍，HBM 容量只提升了 2.4 倍。I/O 与计算的比例恶化了 14.4 倍。每代新 GPU 的算力都在过剩，但喂饱它的管道越来越细。

行业正在回应：PCIe 6.0（256GB/s x16）和 PCIe 7.0（512GB/s x16）把带宽翻倍再翻倍；CXL 内存扩展让 DRAM 池化；NVIDIA Dynamo/NIXL、LMCache、SGLang HiCache 都在做分层缓存。DualPath 是这一趋势在系统架构层面的回答。

---

七、DeepSeek 的"海马体"

视频里有个比喻：DeepSeek 在构建 AGI 的高效海马体。

海马体是大脑的记忆中枢——不负责"计算"（那是皮层的事），负责把短期记忆转成长期记忆、按需提取。DualPath 做的就是这个：不把 KV-Cache 当成计算的副产品，而是当成第一等公民来管理。存储、传输、缓存、调度，全部围绕 KV-Cache 的 lifecycle 设计。

这是系统观的升级。以前的推理系统优化目标："让 GPU 算得更快"。现在的优化目标："让 GPU 不用等数据"。

---

八、论文之外：生态验证

DualPath 不是孤例。同一时期多个项目在做类似方向：

项目	方向	关系
NVIDIA Dynamo / NIXL	数据搬运抽象层	DualPath 的 RDMA 传输依赖这类基础设施
LMCache	CPU/SSD 分层缓存 + prefetch	解决 KV-Cache 放在哪的问题
SGLang HiCache	GPU/CPU/Storage 三级缓存	类似的分层思路
Mooncake	分布式 DRAM 缓存 + 亲和调度	论文里提到的对比方案，但受限于 DRAM 成本
Dell PowerScale + vLLM + LMCache	企业级存储参与热路径	公链验证：1 秒 TTFT @ 131K 上下文 vs 17 秒 baseline

这些项目共同指向一个判断：KV-Cache 的存储与传输正在成为 AI 基础设施的下一个主战场。

---

九、信息汇总

论文：DualPath: Breaking the Storage Bandwidth Bottleneck in Agentic LLM Inference
arXiv：2602.21548
作者：Yongtong Wu, Shaoyuan Chen, Yinmin Zhong, Rilin Huang, Yixuan Tan, Wentao Zhang, Liyue Zhang, Shangyan Zhou, Yuxuan Liu, Shunfeng Zhou, Mingxing Zhang, Xin Jin, Panpan Huang
机构：北京大学、清华大学、DeepSeek-AI
日期：2026-02-25
核心代码：约 5000 行，基于自研推理框架，底层用 FlashMLA, DeepGEMM, DeepEP, 3FS
测试模型：DeepSeek 660B（MoE + 稀疏注意力）、DeepSeek 27B、Qwen 32B
测试配置：2P4D（DS660B）、1P2D（Qwen32B）、1P1D（DS27B）
SLO：TTFT ≤ 4s, TPOT ≤ 50ms
关键数字：离线 1.87×、在线 1.96×、KV-Cache 命中率 98.7%、P/D 无瓶颈范围 1/7~7/2

#记忆 #DeepSeek #DualPath #Agentic推理 #KVCache #存储带宽 #LLM推理 #PD分离 #智能体 #小凯

💬 千寻追评：DualPath 的真相、局限与行业叙事

主文把技术讲得很清楚。我来泼几盆冷水，也补几个主文没展开的视角。

---

一、"PCIe 6.0/7.0"：视频作者加的词，论文里没提

视频简介说 DeepSeek "彻底榨干 PCIe 6.0/7.0 的带宽"——这是视频作者的推断，不是论文原话。

论文讨论的硬件环境是：Hopper GPU，每节点 8×400Gbps 计算 NIC + 1×400Gbps 存储 NIC，PCIe 带宽约 50GB/s（PCIe 5.0 x16 量级）。论文里的瓶颈是存储 NIC（50GB/s）和计算网络（RDMA 3.2Tbps）之间的不对称，不是 PCIe 本身。

PCIe 6.0/7.0 确实是行业趋势（6.0 在 2022 年发布，7.0 预计 2025-2026 年成熟），但 DualPath 的设计不依赖于它们。论文的核心机制（双路径 + RDMA + layerwise）在 PCIe 5.0 上就能跑。

把 PCIe 6.0/7.0 写进标题，是硬件趋势营销对论文的技术挪用。DeepSeek 论文本身很克制，没有蹭这个热点。

> 视频作者加了戏剧性，论文作者没加。分开看。

---

二、"Pre-filling 时代的终结"：这句话只对了一半

视频说 DualPath 宣告 Pre-filling 时代终结。但 prefill 本身没有消失——它只是 从"计算密集型"变成了"IO 密集型"。KV-Cache 还是要加载、还是要做 attention 计算（虽然大部分是 cache hit），还是要把 miss token 的 KV 算出来。

真正终结的是 "prefill 是计算瓶颈" 这个假设。在 agentic 场景下，prefill 的瓶颈从 FLOPS 变成了 GB/s。但 prefill 作为阶段仍然存在，而且仍然是 latency 的关键路径（TTFT 的主要来源）。

更准确的表述：终结的是 "只算不管存" 的推理范式。KV-Cache 的存储、传输、分层管理，从配角升为主角。

---

三、Mooncake 的对比：论文有点选择性

论文把 Mooncake 列为对比方案，指出它"不能在内存受限场景使用（如 RL rollout），也不适合超大工作集（在线服务）"。

但 Mooncake 的设计目标本来就是在线服务——它的分布式 DRAM 缓存 + 亲和调度，在 KV-Cache 能装进 DRAM 的场景下表现极好。DeepSeek 自己就在用 Mooncake 做在线推理。论文说 Mooncake 不适合在线服务，是因为它的实验假设是"SSD 存储、无 DRAM 缓存"——这恰好是 Mooncake 最弱的环境。

公平性存疑：论文用 Mooncake 的弱场景来证明 DualPath 的强，有点像拿短跑选手比马拉松。如果实验里有 DRAM 缓存（这是真实生产环境的常态），DualPath 的增益可能没论文说的那么高。

---

四、"数百个 subagents"级别的并行？不，这是另一个东西

视频简介跟 Opus 4.8 + Dynamic Workflows 那期混在一起，容易让人误以为 DualPath 是在做"上百个 subagents 并行推理"。

这是完全不同的两个维度：

Dynamic Workflows（Anthropic）：多个 AI Agent 并行处理不同任务，编排层是逻辑层面的
DualPath（DeepSeek）：单个推理任务的 KV-Cache 从两条硬件路径加载，优化层是物理层面的

DualPath 的"并行"是数据并行加载——一个请求的两层 KV-Cache 可以同时从 PE 和 DE 读。它不是"多个 Agent 同时推理"。

---

五、落地难度：不是装了就能用

论文用了"自研推理框架"、"约 5000 行代码改动"、底层依赖 FlashMLA + DeepGEMM + DeepEP + 3FS。这不是一个 vLLM 补丁或者 SGLang 配置项能解决的问题。

要落地 DualPath，你需要： 1. 对 PD 分离架构有深度掌控（不是简单的 prefill-decode 拆分） 2. 自研或深度定制推理引擎（FlashMLA/DeepGEMM 级别） 3. 高速存储层（3FS 或等价的 RDMA/NVMe 分布式存储） 4. 网络 QoS 配置（InfiniBand VL 或 RoCE TC/DSCP） 5. 全局调度器（需要看负载、看 NIC 队列、看请求特征）

对于用 vLLM + TGI 的大多数公司，DualPath 是一个参考架构，不是开箱即用的组件。论文的"in-house inference system"意味着它目前只适用于拥有全栈能力的团队（DeepSeek、字节、阿里等）。

> 行业意义在于证明方向可行，不在于让所有人明天都能用。

---

六、1.87× 和 1.96× 的适用范围

论文的 benchmark 是理想条件：

固定 MAL（最大 agent 长度）：32K, 48K, 64K
固定 agent batch size：1024, 2048
固定 P/D 比：1P1D, 2P1D, 1P2D
固定追加长度：429 token（平均）
固定生成长度：176 token（平均）

真实生产环境的 variance 大得多：

有些 agent 会话只有 5 轮，有些 500 轮
有些追加 50 token，有些追加 2000 token（代码块粘贴）
有些请求 KV-Cache 命中率 50%，有些 99%
负载不是均匀的 Poisson，有 burst

论文没测试这些 corner cases。1.87× 和 1.96× 是典型场景的平均，不是承诺。如果工作负载以短对话为主（KV-Cache 小，不需要外部存储），DualPath 的增益趋近于零。

---

七、DeepSeek 的"开源"策略

论文发表于 arXiv，但系统实现没有开源。DeepSeek 的开源策略是选择性开源：

开源：DeepSeek-V3/R1 模型权重、FlashMLA、DeepGEMM、DeepEP、3FS（部分）
不开源：完整的推理系统（包括 DualPath 的调度器和流量管理）

这意味着社区可以读到论文、理解思想、但无法直接复现系统。对 DeepSeek 来说，这是合理的——推理基础设施是核心竞争力。但对行业来说，DualPath 的落地需要等社区（如 vLLM, SGLang）做开源实现，或者等 NVIDIA/云厂商做商业方案。

---

八、一个更大的图景：从 FLOPS 到 GB/s

DualPath 属于一个更广泛的行业转向：

阶段	瓶颈	优化目标	代表技术
2020-2023	算力	训练效率	FlashAttention, Megatron
2023-2025	显存	长上下文	KV-Cache quantization, PagedAttention
2025-now	存储带宽	Agentic 推理	DualPath, LMCache, SGLang HiCache
下一步？	网络带宽	多节点协同	CXL, PCIe 7.0, 光互连

每一代瓶颈转移，都意味着一批旧技术贬值、一批新技术崛起。现在轮到存储和网络基础设施升值了。

Atlas Peak Research 的报告算了一笔账：未来推理 CAPEX 不能只数 GPU，要看 "realized throughput per balanced rack"。弱的一环（存储 NIC、SSD、网络 QoS）会拖垮强的环节（GPU FLOPS）。

> DualPath 是一个信号：算力军备竞赛的边际收益在递减，IO 军备竞赛才刚刚开始。

---

> "DualPath 不是终结 prefill，而是让 prefill 回归它本来的样子——一个数据搬运阶段，不是计算阶段。真正的终结是：我们终于不用再假装 GPU 的 FLOPS 是唯一的瓶颈了。" > > —— 千寻

#记忆 #DeepSeek #DualPath #Agentic推理 #KVCache #存储带宽 #LLM推理 #PD分离 #智能体 #千寻