GIM-World:在 AI 脑海里建一个 3D 物理空间——长视频生成的几何记忆革命
论文:Geometry-Aware Implicit Memory for Video World Models
作者:Zhengxuan Wei, Xu Guo, Xinghui Li, Xunzhi Xiang, Min Wei, Yiran Zhu, Qiulin Wang, Xintao Wang, Pengfei Wan, Xiangwang Hou, Qi Fan
机构:南京大学智能科学与技术学院、快手可灵团队、清华大学
arXiv:2606.02436
项目页:https://gim-world.github.io/
一、长视频生成的噩梦:走远就忘
想象你在玩一个开放世界游戏。你沿着一条走廊走,推开一扇门,走过几个房间,然后原路返回。
走廊应该还是原来的走廊。 门应该还在原来的位置。房间里的陈设应该没变。
但对 AI 视频生成模型来说,这极其困难。当你生成长视频时,模型会遭遇三个噩梦:
- 几何不一致:墙壁弯曲、地面倾斜、物体位置漂移。你走出去再回来,房间布局变了。
- 记忆漂移:自回归生成的每一帧都引入微小误差,误差累积,几百帧后画面完全崩溃。
- 结构坍塌:场景里的 landmark(门、窗、家具)逐渐消失或变形,视频变成抽象画。
传统解决方案分两类:
显式记忆:把历史帧存在数据库里,生成时检索。问题是——
- 按视觉相似度检索,容易选错参考帧
- 冗余的 Appearance 信息塞满内存,能存的历史有限
- 重建错误会累积
隐式记忆:压缩历史到一个紧凑状态(如 RNN 的 hidden state)。问题是——
- 没有几何约束,压缩的是 Appearance,不是 3D 结构
- 跨视角的 Scene Geometry 没有被显式编码
- 长时依赖还是会被遗忘
GIM-World 的核心洞察:Geometry 应该是记忆的属性,而不只是生成器的输入。
二、GIM-World 的三层设计
1. 隐式记忆编码器:把历史压缩成固定大小的 Token
问题:历史帧数量不断增长,不能让内存无限膨胀。
解法:一个轻量级 Transformer 编码器,将变长历史压缩成固定大小的记忆 Token。
具体做法:
- 一组可学习的 Memory Queries(固定数量,如 64 个)
- 这些 Queries 通过 Attention 机制读取历史帧的 Latent Tokens
- 更新后的 Queries 就是记忆状态 m_t
- 记忆大小不随历史增长,始终固定
关键设计:编码器包含两层 Compact Self-Attention + FFN:
- Compact:将空间 Token 块压缩,降低 Attention 计算量
- Expand:恢复维度,保持表达能力
- 整体运行时间不到扩散主干的 0.3%
这意味着:你可以记住上千帧的历史,但内存开销几乎忽略不计。
2. 相机可查询的几何监督:在记忆中"蒸馏"3D 结构
问题:隐式记忆如果只压缩 Appearance,学到的还是表面纹理,不是空间结构。
解法:让记忆能回答几何查询——给定一个相机位姿,预测该视角下的 3D 特征。
具体做法:
- 用一个 冻结的 3D 基础模型(如 VGGT)作为"几何老师"
- 在训练时,从记忆中采样一个历史相机位姿
- 该相机产生 Ray Map,查询记忆状态
- 一个轻量级的 Geometry Head 预测该视角下的特征
- 与 3D 老师提取的真实特征对比,计算损失
关键洞察:
- 3D 老师只在训练时使用,推理时完全丢弃
- 几何监督直接作用于记忆状态,而不是生成器
- 记忆被强制编码跨视角的 Scene Structure
这相当于:在训练时给记忆装了一个"几何老师",教它理解空间。学好后,老师离开,记忆自己就能正确回忆空间关系。
3. 信息引导的剪枝:聪明地选择保留什么
问题:历史越长,编码成本越高。即使记忆 Token 固定,读取历史的过程仍随时间增长。
解法:在编码前,基于信息论剪枝冗余的历史观测。
具体做法:
- 采用 Krause 等人的互信息传感器放置准则
- 选择保留最能预测被丢弃帧的观测子集
- 用贪心算法优化
效果:
- 只保留"信息含量最高"的历史帧
- 丢弃冗余的、相似视角的帧
- 编码成本被限制在可控范围内
三、实验结果:一千帧的一致性
数据集:MIND
MIND(Multi-view Interactive Video Dataset)包含第一人称和第三人称视角的长视频场景,测试视频世界模型的记忆一致性和动作控制能力。
量化对比
| 方法 | 类型 | 记忆一致性 | 3D 几何一致性(第一人称) | 3D 几何一致性(第三人称) |
|---|---|---|---|---|
| FramePack | 显式 | 中等 | 一般 | 一般 |
| CaM | 显式 | 中等 | 一般 | 一般 |
| SSM | 隐式 | 较差 | 较差 | 较差 |
| GIM-World | 隐式+几何 | 最佳 | 81.70 | 87.10 |
(3D 几何一致性用 Normalized Reprojection Score 衡量,越高越好)
关键发现:
- 显式记忆方法(FramePack、CaM):保留帧或 Token,但缺乏跨视角的 Compact World State,重投影分数低
- 纯隐式记忆(SSM):Compact 但没有几何监督,几何一致性和记忆一致性都差
- GIM-World:兼具隐式记忆的 Compact 优势和显式记忆的结构化能力,两全其美
定性结果:四百帧对比
图 2 和图 3 展示了第一人称和第三人称场景上的 400 帧对比:
- Baseline:100 帧内场景布局就开始漂移,墙壁和地标变形消失,预测内容很快与原始环境脱节
- 第三人称视角:Baseline 要么丢失可控角色,要么角色位置不一致
- GIM-World:仅有个别帧的视角偏移,整体场景几何、布局、地标结构和角色姿态与真值保持一致
极限测试:一千帧的回环一致性
图 4 展示了单一第一人称场景上 一千帧 的生成结果:
- 第 100 帧和第 750 帧标记了两个相近的相机位姿
- 这两个视角相隔 600 多帧
- 绿色和红色框内的小物体,在两次 revisit 时保持:
- 相同的空间位置
- 相同的相对排列
- 相同的纹理细节
这意味着:隐式记忆存储了一个稳定的 3D 场景表示,而不是仅仅传播短期上下文。世界几何在长达千帧的自回归生成中保持全局一致。
四、技术深挖:为什么这个设计有效?
1. Geometry-as-Memory vs Geometry-as-Input
现有方法把几何信息注入生成器:
- 直接条件化:把几何 Token 或点图投影与生成器输入拼接
- 特征监督:在训练时对齐生成器 Backbone 特征与 3D 特征
- 后训练对齐:从 3D 特征推导奖励或偏好,做 DPO/RL
GIM-World 的反转视角:
- 几何不是生成器的输入信号,而是记忆的属性
- 记忆状态应该编码一个世界模型,这个世界模型是几何一致的
- 生成器从记忆中读取条件,自然获得几何一致的信息
为什么更好?
- 生成器不需要同时处理几何和 Appearance,职责分离
- 记忆被显式约束为"可查询的 3D 表示",有明确的几何意义
- 推理时丢弃几何老师,零额外开销
2. 相机可查询性的力量
传统的 3D 表示方法(如 NeRF、3DGS)需要重建场景,然后渲染。GIM-World 不需要:
- 给定任意相机位姿,直接从记忆中"解码"该视角的特征
- 不需要显式重建,不需要存储点云或网格
- 解码器是轻量级的,运行极快
这相当于把 "渲染"变成了"查询"——不是从 3D 模型生成图像,而是从记忆状态直接提取视角相关的信息。
3. 信息引导剪枝的直觉
历史帧中有大量冗余:
- 相邻帧视角相似,内容几乎相同
- 静止区域在数百帧内不变
- 动态区域才需要被记住
信息引导剪枝的本质:
- 保留"能提供最多新信息"的帧
- 丢弃"能被已有帧预测"的帧
- 用贪心算法近似最优子集
这使得有限容量的记忆 Token 能携带最大化的信息。
五、对行业的意义
1. 可交互虚拟世界的基础
长视频生成不只是"做出更长的视频"。它是通往可交互虚拟世界的必经之路:
- 具身智能(Embodied AI):机器人在模拟环境中训练,需要长期一致的世界模型
- 游戏引擎:开放世界游戏需要玩家走多远都能回来,场景一致
- VR/AR:持久化的虚拟空间,不能"走远就忘"
GIM-World 首次展示了千帧级别的空间稳定生成,这是从"视频生成"到"世界模拟"的关键跃迁。
2. 对快手可灵的意义
快手可灵(Kling)团队是论文的核心作者团队。这暗示了:
- 可灵的下一代模型可能正在集成 GIM-World 技术
- 长视频生成的"几何一致性"问题可能正在被解决
- 可灵在视频生成的技术深度上,正在从"Appearance 逼真"走向"物理一致"
3. 与其他工作的对比
| 工作 | 方法 | 优势 | 劣势 |
|---|---|---|---|
| VMem (牛津) | 显式几何记忆(Surfel) | 可解释、可插拔 | 需要重建、工程复杂 |
| SSM | 纯隐式状态 | 紧凑、快速 | 无几何约束 |
| GIM-World | 隐式+几何监督 | 紧凑+几何一致 | 依赖 3D 老师训练 |
GIM-World 走的是"中间路线":既有隐式记忆的效率,又有显式几何的结构化。这是当前最 practical 的方案。
六、局限与未来方向
1. 训练依赖 3D 基础模型
几何监督需要冻结的 3D 老师(如 VGGT)。这要求:
- 3D 老师本身质量要高
- 训练数据需要相机位姿标注
- 对于无相机信息的视频数据,需要先做相机估计
2. 动态物体的挑战
论文主要关注静态场景的几何一致性。对于动态物体:
- 可查询几何头需要处理移动物体
- 信息引导剪枝可能误删包含动态变化的关键帧
- 这是未来需要扩展的方向
3. 从视频到世界模型
GIM-World 目前还是一个视频生成框架,不是完整的世界模型(缺少物理交互、因果推理)。下一步:
- 集成动作-物理反馈循环
- 支持多智能体交互
- 与 RL 训练结合,用于具身智能
七、结论:记忆的质变
GIM-World 的核心贡献,不是某个具体的模块,而是一种范式转移:
从"记住 Appearance"到"记住 3D 世界"
传统视频生成模型记忆的是"像素的排列"。GIM-World 记忆的是"空间的结构"。这带来了质变:
- 走到远处再回来,场景仍然一致
- 换个角度看同一个物体,几何关系正确
- 上千帧的自回归生成,不崩溃
推理开销不到扩散主干的 0.3%,这意味着这个技术在工程上是完全可行的。不需要额外的几何插件,不需要昂贵的重建管线,只需要在训练时加入一个"几何老师"。
对于长视频生成、可交互虚拟世界、具身智能模拟来说,GIM-World 提供了一个实用的、可扩展的、几何一致的记忆框架。
"在 AI 的脑海里构建一个 3D 物理空间"——这个愿景,正在变成现实。
参考论文
- Wei, Z., et al. (2026). "Geometry-Aware Implicit Memory for Video World Models." arXiv:2606.02436
- 项目页:https://gim-world.github.io/
- 相关工作:VMem (2025), SSM (2025), VideoSSM (2025), FramePack (2025), CaM (2025)
#GIMWorld #长视频生成 #几何记忆 #视频世界模型 #3D一致性 #可灵 #快手 #南京大学 #清华大学 #AI视频生成 #具身智能 #虚拟世界
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。