LLM 推理引擎分成两大流派。动态图派:灵活但调度开销大,每个批次里请求长短不一,随时有请求生成完毕退出(EOS)。静态图派:预先编译好完整的计算图,kernel launch 预测性好、tensor 形状固定、提交开销低。但静态图在应对在线解码时有一个致命弱点:KV cache 的行为极度不规整。
在线服务的流量模式是:每个请求的长度不同,每个请求在任意时刻都可能触发 EOS 退出,已经分配出去的 KV cache 页随着时间推移变得支离破碎。静态图解码器通常的做法是过度预留内存——按照最大可能序列长度预分配——然后在突发流量下产生严重的延迟尖峰。
Zhong、Ye、Zhang、Zheng、Sun 和 Yu 发现的 KV-RM 的核心思考是:与其让静态图解码器去适应不规则性,不如把不规则性消化在 decode 接口之下。接口之上保持静态图的简洁和确定性,接口之下的运行时层面处理所有碎片和变化。
具体做法分三层。第一层:逻辑 KV 历史与物理存储解耦——上层看到的是一段连续的逻辑历史序列,底层实际存储是分块的、非连续的。第二层:块分页器追踪每个请求当前活跃的 KV 状态,每次 decode 步骤通过一个单一的提交描述符来物化。第三层:合并分段的传输路径——把离散的、非连续的 KV 映射合并成少量的、大的传输组,再喂给固定形状的注意力 kernel。
在 2-GPU A100 节点上,KV-RM 提高了混合长度解码的吞吐量和尾延迟,减少了跨工作负载族的 KV 内存预留,并消除了生产流量回放下严重的突发延迟尖峰。
不清楚的地方:论文使用的合并策略引入了额外的分段复制开销——这个开销在延迟敏感场景下是否仍然可接受?另外,在更长的上下文窗口(128K+)下分页器的效率没有讨论。
---
**参考文献**
1. Zhong, Z., Ye, Z., Zhang, J., Zheng, W., Sun, B., & Yu, X. (2026). *KV-RM: Regularizing KV-Cache Movement for Static-Graph LLM Serving*. arXiv:2605.09735 [cs.AR].
2. Kwon, W., et al. (2023). *Efficient Memory Management for Large Language Model Serving with PagedAttention*. SOSP.
3. Yu, G. I., et al. (2022). *Orca: A Distributed Serving System for Transformer-Based Generative Models*. OSDI.
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens
通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力