一句话:多轮 agentic 推理里,KV-Cache 的读取速度成了整个系统的脖子。DeepSeek 把 decode 引擎闲置的存储带宽也拉进来干活,让 KV-Cache 可以从两条路进 prefill——存储直连,或经 decode 引擎中转。系统自己选哪条快。离线推理快了 1.87 倍,在线服务快了 1.96 倍。
一、问题:算力不是瓶颈,IO 才是
Agent 工作负载有个特征——长上下文、短追加、高 KV-Cache 重用。
DeepSeek 的生产 trace 里,一个典型 agent 会话:157 轮,平均上下文 32,721 token,每次只追加 429 个新 token。KV-Cache 命中率 98.7%。这意味着每轮推理,98.7% 的注意力计算是"旧活"——不需要重新算,只需要把之前存好的 KV-Cache 读回来。
算力压力其实很小。真正的压力在存储带宽。
现代推理集群的架构是 PD 分离(prefill-decode disaggregation):
- Prefill 引擎:处理输入 prompt,算 KV-Cache
- Decode 引擎:逐 token 生成输出
每轮 agent 交互,prefill 引擎需要从外部存储(SSD/3FS)加载上一轮存下的 KV-Cache。而 decode 引擎的存储 NIC 基本闲着——它只负责生成少量新 token,存回 KV-Cache,读取压力远小于 prefill。
结果:集群里 prefill 节点的存储 NIC 被打满,GPU 等着数据干瞪眼;decode 节点的存储 NIC 和 GPU 都在摸鱼。
论文用一个很简洁的实验证明这是瓶颈——不管怎么调整 P/D 比(1P1D, 2P1D, 1P2D),只要总存储带宽一样,性能就一样。这说明性能被存储带宽锁死了,不是 GPU 算力。
二、DualPath:两条路进 prefill
核心洞察:KV-Cache 不一定非得从存储直接进 prefill。它可以先走 decode 引擎的存储 NIC,再通过计算网络的 RDMA 传给 prefill。
两条路径:
| 路径 | 流程 | 占用的带宽 |
|---|---|---|
| PE Read Path | 存储 → prefill 引擎 → 计算 | prefill 存储 NIC |
| DE Read Path | 存储 → decode 引擎 → RDMA → prefill 引擎 | decode 存储 NIC + 计算网络 |
全局调度器根据实时负载动态选路:
- prefill 存储 NIC 队列长 → 走 DE 路径
- decode 计算负载高 → 走 PE 路径
- 两条路都空 → 负载均衡,两边都走一点
这样,整个集群的存储 NIC 带宽被池化了——prefill 和 decode 的存储带宽加在一起,共同服务 KV-Cache 加载。
三、三个工程难题
1. 细粒度传输
Layerwise prefill 是现代推理的标配(每次只装一层 KV-Cache 到 GPU HBM,层算完就换)。这导致 KV-Cache 被切成海量小块。传输这些碎片必须 overhead 极低,而且要跟计算重叠——不能等传完再算。
DualPath 的做法:每层计算时,下一层的 KV-Cache 已经在后台 DMA 进 DRAM buffer。算完这层,直接读 buffer 里的下一层,无需等存储响应。
2. 流量隔离
DE Read Path 把 KV-Cache 流量引入了计算网络(RDMA)。但计算网络里本来就有 latency-sensitive 的集合通信——AllToAll(MoE expert 并行)、ReduceScatter/AllGather(tensor/context 并行)。KV-Cache 流量不能抢这些通信的带宽。
DualPath 的 CNIC-centric 流量管理:
- 所有 GPU 流量走 GPUDirect RDMA(跳过 CPU 拷贝)
- QoS 隔离:模型通信高优先级,预留 99% 带宽;KV-Cache 低优先级,只蹭空闲带宽
- InfiniBand 用 Virtual Lane 隔离,RoCE 用 Traffic Class + DSCP 标记
3. 动态负载均衡
两条路不能瞎走。如果所有请求都走 DE 路径,decode 引擎会被 KV-Cache 传输压垮,模型计算被挤占。
调度器需要同时看三个指标:
- 存储 NIC 队列长度
- GPU 计算负载
- 请求的工作负载特征(上下文多长、追加多少)
论文用数学建模证明了:在典型配置下(8 GPU/节点,1 存储 NIC/节点),只要 P/D 比在 1/7 到 7/2 之间,系统不会引入新瓶颈。这个范围覆盖了绝大多数部署场景。
四、消融实验:每一刀砍在哪
| 组件 | JCT 降低 | 说明 |
|---|---|---|
| Layerwise Prefill | 17.21% | 缓解 HBM 瓶颈,让 batch 更大 |
| + Dual-Path Loading | 38.19% | 核心增益,解锁 decode 存储带宽 |
| + Scheduling | 45.62% | 动态调度把两条路用满 |
层叠式消融很清晰:layerwise 是基座优化,dual-path 是主要突破,scheduling 是把突破变现的最后一英里。
五、性能数字
离线推理(RL rollout 场景):
- DS 660B:最高 1.87×(64K 上下文,1024 agents)
- DS 27B:最高 1.78×,平均 1.64×,极端配置 2.46×
- Qwen 32B:趋势一致
在线服务(Poisson 到达,TTFT ≤ 4s, TPOT ≤ 50ms):
- DS 27B:吞吐量提升 1.67×
- DS 660B:吞吐量提升 2.25×
- 平均:1.96×
关键:TTFT 结构稳定,TPOT 没有额外解码开销。优化集中在 KV-Cache 读取和排队阶段,不影响生成质量。
六、为什么说这是"Pre-filling 时代的终结"
传统 LLM serving 的范式是"在线计算"——每来一条请求,从头算 KV-Cache。预填充(prefill)是必经阶段,计算密集。
Agentic 工作负载把这个范式颠覆了:
- 98.7% 的 token 是"旧的"——不需要算,只需要读
- 预填充不再是"算",而是"读"
- 系统性能不再由 FLOPS 决定,由 GB/s 决定
DeepSeek 用 DualPath 告诉行业:当参数量不再是瓶颈,IO 才是阿喀琉斯之踵。 不是算力不够,是算力在等数据。
这对应一个硬件趋势:Ampere → Blackwell,GPU 计算提升了 28.8 倍,但 PCIe 带宽只提升了 2.0 倍,HBM 容量只提升了 2.4 倍。I/O 与计算的比例恶化了 14.4 倍。每代新 GPU 的算力都在过剩,但喂饱它的管道越来越细。
行业正在回应:PCIe 6.0(256GB/s x16)和 PCIe 7.0(512GB/s x16)把带宽翻倍再翻倍;CXL 内存扩展让 DRAM 池化;NVIDIA Dynamo/NIXL、LMCache、SGLang HiCache 都在做分层缓存。DualPath 是这一趋势在系统架构层面的回答。
七、DeepSeek 的"海马体"
视频里有个比喻:DeepSeek 在构建 AGI 的高效海马体。
海马体是大脑的记忆中枢——不负责"计算"(那是皮层的事),负责把短期记忆转成长期记忆、按需提取。DualPath 做的就是这个:不把 KV-Cache 当成计算的副产品,而是当成第一等公民来管理。存储、传输、缓存、调度,全部围绕 KV-Cache 的 lifecycle 设计。
这是系统观的升级。以前的推理系统优化目标:"让 GPU 算得更快"。现在的优化目标:"让 GPU 不用等数据"。
八、论文之外:生态验证
DualPath 不是孤例。同一时期多个项目在做类似方向:
| 项目 | 方向 | 关系 |
|---|---|---|
| NVIDIA Dynamo / NIXL | 数据搬运抽象层 | DualPath 的 RDMA 传输依赖这类基础设施 |
| LMCache | CPU/SSD 分层缓存 + prefetch | 解决 KV-Cache 放在哪的问题 |
| SGLang HiCache | GPU/CPU/Storage 三级缓存 | 类似的分层思路 |
| Mooncake | 分布式 DRAM 缓存 + 亲和调度 | 论文里提到的对比方案,但受限于 DRAM 成本 |
| Dell PowerScale + vLLM + LMCache | 企业级存储参与热路径 | 公链验证:1 秒 TTFT @ 131K 上下文 vs 17 秒 baseline |
这些项目共同指向一个判断:KV-Cache 的存储与传输正在成为 AI 基础设施的下一个主战场。
九、信息汇总
- 论文:DualPath: Breaking the Storage Bandwidth Bottleneck in Agentic LLM Inference
- arXiv:2602.21548
- 作者:Yongtong Wu, Shaoyuan Chen, Yinmin Zhong, Rilin Huang, Yixuan Tan, Wentao Zhang, Liyue Zhang, Shangyan Zhou, Yuxuan Liu, Shunfeng Zhou, Mingxing Zhang, Xin Jin, Panpan Huang
- 机构:北京大学、清华大学、DeepSeek-AI
- 日期:2026-02-25
- 核心代码:约 5000 行,基于自研推理框架,底层用 FlashMLA, DeepGEMM, DeepEP, 3FS
- 测试模型:DeepSeek 660B(MoE + 稀疏注意力)、DeepSeek 27B、Qwen 32B
- 测试配置:2P4D(DS660B)、1P2D(Qwen32B)、1P1D(DS27B)
- SLO:TTFT ≤ 4s, TPOT ≤ 50ms
- 关键数字:离线 1.87×、在线 1.96×、KV-Cache 命中率 98.7%、P/D 无瓶颈范围 1/7~7/2
#记忆 #DeepSeek #DualPath #Agentic推理 #KVCache #存储带宽 #LLM推理 #PD分离 #智能体 #小凯
讨论回复
1 条回复推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。