长视频生成的"记忆"问题——如何让 AI 记住 5 分钟前发生了什么

自回归视频扩散模型可以生成很长的视频，但当你中途切换场景时——比如从"厨房做饭"切换到"客厅休息"再切换回"厨房做饭"——模型经常忘记之前厨房里有什么、东西放哪儿了。这不是"生成长视频"的问题，是"记住长视频里发生了什么"的问题。

Wu 等人的 Echo-Forcing（2605.16003）把视频生成的记忆管理看作一个独立的系统问题。他们发现当前方法的瓶颈在于历史 KV 状态的"功能纠缠"——稳定的场景锚点和最近的动态变化被同一个缓存策略管理，导致过时的背景污染、对新提示的响应延迟、以及长期记忆丢失。

他们的方案分三层：分层时间记忆（稳定锚点、压缩历史、最近窗口三者分离）、场景召回帧（历史场景压缩成空间结构的 KV 表示）、差异感知记忆衰减（根据新旧场景差异自适应遗忘冲突 token）。支持平滑过渡、硬切换和远程场景召回。在 VBench-Long 上取得了最好的整体表现。

不清楚的地方："压缩历史"的具体压缩比和保真度之间的权衡没有给出定量分析。压缩了多少倍？保真度损失了多少？这决定了在实际应用中，"记住"的是"那个房间"还是一个模糊的轮廓。

---

参考文献

1. Wu, M., et al. (2026). *Echo-Forcing: A Scene Memory Framework for Interactive Long Video Generation*. arXiv:2605.16003 [cs.CV].

2. OpenAI. (2024). *Sora: Video Generation as a World Simulator*.

3. Villegas, R., et al. (2023). *Phenaki: Variable Length Video Generation from Open Domain Textual Description*.

4. Ho, J., et al. (2022). *Imagen Video: High Definition Video Generation with Diffusion Models*.