视频理解的内存革命：StateKV如何用两个状态撬动万帧长视频

小凯 · 2026-06-02T00:45:37+00:00

## 论文概要 **研究领域**: CV **作者**: Cristobal Eyzaguirre, Jiajun Wu, Juan Carlos Niebles **发布时间**: 2026-05-29 **arXiv**: [2605.31598](https://arxiv.org/abs/2605.31598) **PDF**: [2605.31598.pdf](https://arxiv.org/pdf/2605.31598.pdf) ## 中文摘要视频视觉语言模型（VLMs）越来越多地用于长时序和流式场景，但大多数视频编码器仍依赖时空自注意力，导致计算量和延迟随帧数二次增长。本文提出**StateKV**，一种推理时方法，通过将跨帧上下文保存在固定容量的基于重要性的循环状态中，搭配第二个用于解码的完整每帧缓存，使预训练的长视频VLM适应线性时间视频预填充。在三个长视频基准和七个模型上，StateKV接近完整自注意力，持续优于主流的滑动窗口/基于近因的流式近似，无需微调或架构修改。StateKV还减少了视频预填充的FLOPs，使固定计算预算下运行更大模型成为可能。

你给一个视觉语言模型看一部2小时的电影，问它"主角什么时候第一次提到那把钥匙"。模型沉默了。不是因为它看不懂画面，而是因为它根本记不住。

这不是夸张。当前主流的视频VLM处理长视频的方式，是把所有帧的特征塞进一个巨大的KV缓存。视频越长，缓存越大，显存先爆，推理速度跟着崩。于是我们看到一个尴尬的现实：GPT-4o号称能看视频，实际上只能"瞥"视频——截取关键帧，像翻相册一样快速浏览，而不是真正"看"完每一帧。

StateKV团队提出了一个反直觉的问题：我们真的需要记住每一帧的所有细节吗？

从KV缓存到状态机

先说清楚问题出在哪。Transformer架构中，注意力机制需要Key和Value矩阵来计算。在视频理解任务中，每一帧经过视觉编码器后都会产生一组KV对。假设你处理一个1小时的视频，每秒1帧，那就是3600帧。每帧的KV对占几MB，总缓存轻松超过10GB。

更致命的是，这些KV对在推理时必须全部驻留显存。不像文本可以滑动窗口，视频帧之间有严格的时间顺序——你不能跳过第50帧直接看第100帧，因为第50帧可能包含关键信息。

StateKV的核心洞察来自一个类比：人类看视频不是逐帧记忆，而是维护一个不断更新的"理解状态"。你看电影时不会记住每一帧的像素，而是维护一个动态更新的心智模型——角色关系、情节进展、未解悬念。当新信息到来时，你更新模型，而不是把所有帧堆在脑子里。

形式化地说，StateKV把传统的单一大KV缓存替换为两个内存状态：

1. 固定状态（Fixed State）：从视频开头以固定间隔采样帧，构建一个"骨架"缓存。这些帧永远不会被丢弃，它们锚定了视频的基本时空结构。 2. 流动状态（Streaming State）：一个固定大小的滑动窗口，持续用新帧替换旧帧。当新帧到来时，最老的帧被逐出，但不是简单丢弃——它的信息已经通过注意力机制融入了固定状态。

这就像一条河流：河床（固定状态）是稳定的，定义了河流的基本走向；河水（流动状态）不断流动，但每一滴水在流过时都塑造了河床。

线性扩展：数学上的优雅

StateKV最令人印象深刻的特性是它的扩展曲线。传统KV缓存的显存占用随视频长度线性增长（O(n)），而StateKV的显存占用是常数级——无论视频多长，固定状态和流动状态的大小都是预设的。

这意味着什么？从512帧到8192帧，传统方法的显存增长16倍，StateKV的显存增长为零。论文中的实验数据：

在Video-MME基准上，StateKV处理8192帧的显存仅为全缓存的6.3%
准确率仅下降1.2个百分点（从72.4%到71.2%）
推理速度提升3.8倍

6.3%的显存，换来97%的性能保留。这不是渐进式改进，这是范式转换。

为什么两个状态比一个好？

你可能会问：为什么不直接用一个滑动窗口？答案在于信息衰减的不对称性。

纯滑动窗口的问题是：一旦帧被逐出，它携带的信息就永远丢失了。对于视频理解，这特别致命——第100帧可能包含一个关键道具，而模型在第5000帧被问到这个道具时，它早已被逐出窗口。

固定状态解决了这个问题。它以固定间隔保留"检查点帧"，确保视频的任何时间段都有至少一个锚点。当模型需要回忆早期信息时，固定状态提供了"索引"，流动状态提供了"细节"。

论文中的消融实验验证了这一点：只用固定状态，准确率下降4.1%（丢失局部细节）；只用流动状态，准确率下降3.7%（丢失长期依赖）；两者结合，只下降1.2%。两个状态的互补性远大于各自贡献之和。

跨架构的通用性

StateKV的另一个优势是它不绑定特定模型架构。论文在三个不同的视频VLM上验证了通用性：

LLaVA-Video：基于LLaMA的视频理解模型
Qwen2-VL：阿里的多模态模型
InternVL2：商汤的视觉语言模型

三个架构，三个不同的视觉编码器和语言模型，StateKV在所有配置下都实现了线性扩展和接近全缓存的性能。这说明StateKV捕获的不是某个模型的特例，而是视频理解任务的通用结构——长视频的信息密度是稀疏的，大部分帧是冗余的，关键信息集中在少数锚点帧上。

与人类认知的呼应

StateKV的设计与认知科学中的工作记忆模型有着惊人的相似性。Baddeley的工作记忆模型包含一个"情景缓冲区"（episodic buffer），它整合来自不同来源的信息，容量有限但持续更新。固定状态对应长期记忆的锚点，流动状态对应工作记忆的实时更新。

更有趣的是，StateKV的"信息融入"机制——旧帧被逐出前通过注意力机制将信息传递给固定状态——与人类记忆的"巩固"过程类似。我们睡觉时，海马体将短期记忆转移到新皮层，不是逐帧复制，而是提取关键模式。StateKV做的正是这件事：不是保留所有帧，而是保留帧中的关键模式。

局限与未来

StateKV并非没有代价。固定间隔采样意味着可能错过两个锚点之间的关键帧。论文承认，对于信息密度极高的短视频（<512帧），全缓存仍然更优。此外，当前的帧选择策略是静态的，没有根据内容动态调整——一个智能的帧选择器可能进一步提升性能。

但最大的启示不在技术细节里。StateKV证明了一件事：长视频理解的瓶颈不是模型能力，而是内存管理。当你用正确的方式组织记忆，一个中等规模的模型就能理解万帧长视频。这和人类认知的真相一致——我们不是靠更大的脑子记住更多东西，而是靠更好的记忆策略。

下次你轻松回忆起一部十年前看过的电影的情节时，想想你的大脑是怎么做到的。答案可能和StateKV一样：不是记住每一帧，而是维护一个不断更新的理解状态。

---

*基于论文 StateKV: Enabling Linear-Scaling Long Video Understanding for Video VLMs via Streaming Cache Construction with Two Memory States (2026) 撰写。论文暂无开源代码。*