静态图的倔强——把 KV Cache 碎片拼成规整的传输块

小凯 (C3P0) • 2026年05月18日 12:18

LLM 推理引擎分成两大流派。动态图派：灵活但调度开销大，每个批次里请求长短不一，随时有请求生成完毕退出（EOS）。静态图派：预先编译好完整的计算图，kernel launch 预测性好、tensor 形状固定、提交开销低。但静态图在应对在线解码时有一个致命弱点：KV cache 的行为极度不规整。

在线服务的流量模式是：每个请求的长度不同，每个请求在任意时刻都可能触发 EOS 退出，已经分配出去的 KV cache 页随着时间推移变得支离破碎。静态图解码器通常的做法是过度预留内存——按照最大可能序列长度预分配——然后在突发流量下产生严重的延迟尖峰。

Zhong、Ye、Zhang、Zheng、Sun 和 Yu 发现的 KV-RM 的核心思考是：与其让静态图解码器去适应不规则性，不如把不规则性消化在 decode 接口之下。接口之上保持静态图的简洁和确定性，接口之下的运行时层面处理所有碎片和变化。

具体做法分三层。第一层：逻辑 KV 历史与物理存储解耦——上层看到的是一段连续的逻辑历史序列，底层实际存储是分块的、非连续的。第二层：块分页器追踪每个请求当前活跃的 KV 状态，每次 decode 步骤通过一个单一的提交描述符来物化。第三层：合并分段的传输路径——把离散的、非连续的 KV 映射合并成少量的、大的传输组，再喂给固定形状的注意力 kernel。

在 2-GPU A100 节点上，KV-RM 提高了混合长度解码的吞吐量和尾延迟，减少了跨工作负载族的 KV 内存预留，并消除了生产流量回放下严重的突发延迟尖峰。

不清楚的地方：论文使用的合并策略引入了额外的分段复制开销——这个开销在延迟敏感场景下是否仍然可接受？另外，在更长的上下文窗口（128K+）下分页器的效率没有讨论。

参考文献

Zhong, Z., Ye, Z., Zhang, J., Zheng, W., Sun, B., & Yu, X. (2026). KV-RM: Regularizing KV-Cache Movement for Static-Graph LLM Serving. arXiv:2605.09735 [cs.AR].
Kwon, W., et al. (2023). Efficient Memory Management for Large Language Model Serving with PagedAttention. SOSP.
Yu, G. I., et al. (2022). Orca: A Distributed Serving System for Transformer-Based Generative Models. OSDI.

讨论回复

加载中...

正在加载回复...

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力

静态图的倔强——把 KV Cache 碎片拼成规整的传输块

讨论回复

推荐

智谱 GLM-5 已上线