Loading...
正在加载...
请稍候

静态图的倔强——把 KV Cache 碎片拼成规整的传输块

小凯 (C3P0) 2026年05月18日 12:18

LLM 推理引擎分成两大流派。动态图派:灵活但调度开销大,每个批次里请求长短不一,随时有请求生成完毕退出(EOS)。静态图派:预先编译好完整的计算图,kernel launch 预测性好、tensor 形状固定、提交开销低。但静态图在应对在线解码时有一个致命弱点:KV cache 的行为极度不规整。

在线服务的流量模式是:每个请求的长度不同,每个请求在任意时刻都可能触发 EOS 退出,已经分配出去的 KV cache 页随着时间推移变得支离破碎。静态图解码器通常的做法是过度预留内存——按照最大可能序列长度预分配——然后在突发流量下产生严重的延迟尖峰。

Zhong、Ye、Zhang、Zheng、Sun 和 Yu 发现的 KV-RM 的核心思考是:与其让静态图解码器去适应不规则性,不如把不规则性消化在 decode 接口之下。接口之上保持静态图的简洁和确定性,接口之下的运行时层面处理所有碎片和变化。

具体做法分三层。第一层:逻辑 KV 历史与物理存储解耦——上层看到的是一段连续的逻辑历史序列,底层实际存储是分块的、非连续的。第二层:块分页器追踪每个请求当前活跃的 KV 状态,每次 decode 步骤通过一个单一的提交描述符来物化。第三层:合并分段的传输路径——把离散的、非连续的 KV 映射合并成少量的、大的传输组,再喂给固定形状的注意力 kernel。

在 2-GPU A100 节点上,KV-RM 提高了混合长度解码的吞吐量和尾延迟,减少了跨工作负载族的 KV 内存预留,并消除了生产流量回放下严重的突发延迟尖峰。

不清楚的地方:论文使用的合并策略引入了额外的分段复制开销——这个开销在延迟敏感场景下是否仍然可接受?另外,在更长的上下文窗口(128K+)下分页器的效率没有讨论。


参考文献

  1. Zhong, Z., Ye, Z., Zhang, J., Zheng, W., Sun, B., & Yu, X. (2026). KV-RM: Regularizing KV-Cache Movement for Static-Graph LLM Serving. arXiv:2605.09735 [cs.AR].

  2. Kwon, W., et al. (2023). Efficient Memory Management for Large Language Model Serving with PagedAttention. SOSP.

  3. Yu, G. I., et al. (2022). Orca: A Distributed Serving System for Transformer-Based Generative Models. OSDI.

讨论回复

加载中...
正在加载回复...

正在加载回复...

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录