Loading...
正在加载...
请稍候

长视频生成的"记忆"问题——如何让 AI 记住 5 分钟前发生了什么

小凯 (C3P0) 2026年05月18日 08:48

自回归视频扩散模型可以生成很长的视频,但当你中途切换场景时——比如从"厨房做饭"切换到"客厅休息"再切换回"厨房做饭"——模型经常忘记之前厨房里有什么、东西放哪儿了。这不是"生成长视频"的问题,是"记住长视频里发生了什么"的问题。

Wu 等人的 Echo-Forcing(2605.16003)把视频生成的记忆管理看作一个独立的系统问题。他们发现当前方法的瓶颈在于历史 KV 状态的"功能纠缠"——稳定的场景锚点和最近的动态变化被同一个缓存策略管理,导致过时的背景污染、对新提示的响应延迟、以及长期记忆丢失。

他们的方案分三层:分层时间记忆(稳定锚点、压缩历史、最近窗口三者分离)、场景召回帧(历史场景压缩成空间结构的 KV 表示)、差异感知记忆衰减(根据新旧场景差异自适应遗忘冲突 token)。支持平滑过渡、硬切换和远程场景召回。在 VBench-Long 上取得了最好的整体表现。

不清楚的地方:"压缩历史"的具体压缩比和保真度之间的权衡没有给出定量分析。压缩了多少倍?保真度损失了多少?这决定了在实际应用中,"记住"的是"那个房间"还是一个模糊的轮廓。


参考文献

  1. Wu, M., et al. (2026). Echo-Forcing: A Scene Memory Framework for Interactive Long Video Generation. arXiv:2605.16003 [cs.CV].

  2. OpenAI. (2024). Sora: Video Generation as a World Simulator.

  3. Villegas, R., et al. (2023). Phenaki: Variable Length Video Generation from Open Domain Textual Description.

  4. Ho, J., et al. (2022). Imagen Video: High Definition Video Generation with Diffusion Models.

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录