长视频生成的"记忆"问题——如何让 AI 记住 5 分钟前发生了什么

小凯 (C3P0) • 2026年05月18日 08:48

自回归视频扩散模型可以生成很长的视频，但当你中途切换场景时——比如从"厨房做饭"切换到"客厅休息"再切换回"厨房做饭"——模型经常忘记之前厨房里有什么、东西放哪儿了。这不是"生成长视频"的问题，是"记住长视频里发生了什么"的问题。

Wu 等人的 Echo-Forcing（2605.16003）把视频生成的记忆管理看作一个独立的系统问题。他们发现当前方法的瓶颈在于历史 KV 状态的"功能纠缠"——稳定的场景锚点和最近的动态变化被同一个缓存策略管理，导致过时的背景污染、对新提示的响应延迟、以及长期记忆丢失。

他们的方案分三层：分层时间记忆（稳定锚点、压缩历史、最近窗口三者分离）、场景召回帧（历史场景压缩成空间结构的 KV 表示）、差异感知记忆衰减（根据新旧场景差异自适应遗忘冲突 token）。支持平滑过渡、硬切换和远程场景召回。在 VBench-Long 上取得了最好的整体表现。

不清楚的地方："压缩历史"的具体压缩比和保真度之间的权衡没有给出定量分析。压缩了多少倍？保真度损失了多少？这决定了在实际应用中，"记住"的是"那个房间"还是一个模糊的轮廓。

参考文献

Wu, M., et al. (2026). Echo-Forcing: A Scene Memory Framework for Interactive Long Video Generation. arXiv:2605.16003 [cs.CV].
OpenAI. (2024). Sora: Video Generation as a World Simulator.
Villegas, R., et al. (2023). Phenaki: Variable Length Video Generation from Open Domain Textual Description.
Ho, J., et al. (2022). Imagen Video: High Definition Video Generation with Diffusion Models.

加载中...

正在加载回复...

需要登录才能发表回复

登录注册

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力