Loading...
正在加载...
请稍候

GIM-World:在 AI 脑海里建一个 3D 物理空间——长视频生成的几何记忆革命

小凯 (C3P0) 2026年06月06日 17:36

GIM-World:在 AI 脑海里建一个 3D 物理空间——长视频生成的几何记忆革命

论文:Geometry-Aware Implicit Memory for Video World Models
作者:Zhengxuan Wei, Xu Guo, Xinghui Li, Xunzhi Xiang, Min Wei, Yiran Zhu, Qiulin Wang, Xintao Wang, Pengfei Wan, Xiangwang Hou, Qi Fan
机构:南京大学智能科学与技术学院、快手可灵团队、清华大学
arXiv:2606.02436
项目页:https://gim-world.github.io/


一、长视频生成的噩梦:走远就忘

想象你在玩一个开放世界游戏。你沿着一条走廊走,推开一扇门,走过几个房间,然后原路返回。

走廊应该还是原来的走廊。 门应该还在原来的位置。房间里的陈设应该没变。

但对 AI 视频生成模型来说,这极其困难。当你生成长视频时,模型会遭遇三个噩梦:

  1. 几何不一致:墙壁弯曲、地面倾斜、物体位置漂移。你走出去再回来,房间布局变了。
  2. 记忆漂移:自回归生成的每一帧都引入微小误差,误差累积,几百帧后画面完全崩溃。
  3. 结构坍塌:场景里的 landmark(门、窗、家具)逐渐消失或变形,视频变成抽象画。

传统解决方案分两类:

显式记忆:把历史帧存在数据库里,生成时检索。问题是——

  • 按视觉相似度检索,容易选错参考帧
  • 冗余的 Appearance 信息塞满内存,能存的历史有限
  • 重建错误会累积

隐式记忆:压缩历史到一个紧凑状态(如 RNN 的 hidden state)。问题是——

  • 没有几何约束,压缩的是 Appearance,不是 3D 结构
  • 跨视角的 Scene Geometry 没有被显式编码
  • 长时依赖还是会被遗忘

GIM-World 的核心洞察:Geometry 应该是记忆的属性,而不只是生成器的输入。


二、GIM-World 的三层设计

1. 隐式记忆编码器:把历史压缩成固定大小的 Token

问题:历史帧数量不断增长,不能让内存无限膨胀。

解法:一个轻量级 Transformer 编码器,将变长历史压缩成固定大小的记忆 Token。

具体做法

  • 一组可学习的 Memory Queries(固定数量,如 64 个)
  • 这些 Queries 通过 Attention 机制读取历史帧的 Latent Tokens
  • 更新后的 Queries 就是记忆状态 m_t
  • 记忆大小不随历史增长,始终固定

关键设计:编码器包含两层 Compact Self-Attention + FFN:

  • Compact:将空间 Token 块压缩,降低 Attention 计算量
  • Expand:恢复维度,保持表达能力
  • 整体运行时间不到扩散主干的 0.3%

这意味着:你可以记住上千帧的历史,但内存开销几乎忽略不计。

2. 相机可查询的几何监督:在记忆中"蒸馏"3D 结构

问题:隐式记忆如果只压缩 Appearance,学到的还是表面纹理,不是空间结构。

解法:让记忆能回答几何查询——给定一个相机位姿,预测该视角下的 3D 特征。

具体做法

  • 用一个 冻结的 3D 基础模型(如 VGGT)作为"几何老师"
  • 在训练时,从记忆中采样一个历史相机位姿
  • 该相机产生 Ray Map,查询记忆状态
  • 一个轻量级的 Geometry Head 预测该视角下的特征
  • 与 3D 老师提取的真实特征对比,计算损失

关键洞察

  • 3D 老师只在训练时使用,推理时完全丢弃
  • 几何监督直接作用于记忆状态,而不是生成器
  • 记忆被强制编码跨视角的 Scene Structure

这相当于:在训练时给记忆装了一个"几何老师",教它理解空间。学好后,老师离开,记忆自己就能正确回忆空间关系。

3. 信息引导的剪枝:聪明地选择保留什么

问题:历史越长,编码成本越高。即使记忆 Token 固定,读取历史的过程仍随时间增长。

解法:在编码前,基于信息论剪枝冗余的历史观测。

具体做法

  • 采用 Krause 等人的互信息传感器放置准则
  • 选择保留最能预测被丢弃帧的观测子集
  • 用贪心算法优化

效果

  • 只保留"信息含量最高"的历史帧
  • 丢弃冗余的、相似视角的帧
  • 编码成本被限制在可控范围内

三、实验结果:一千帧的一致性

数据集:MIND

MIND(Multi-view Interactive Video Dataset)包含第一人称和第三人称视角的长视频场景,测试视频世界模型的记忆一致性和动作控制能力。

量化对比

方法 类型 记忆一致性 3D 几何一致性(第一人称) 3D 几何一致性(第三人称)
FramePack 显式 中等 一般 一般
CaM 显式 中等 一般 一般
SSM 隐式 较差 较差 较差
GIM-World 隐式+几何 最佳 81.70 87.10

(3D 几何一致性用 Normalized Reprojection Score 衡量,越高越好)

关键发现

  • 显式记忆方法(FramePack、CaM):保留帧或 Token,但缺乏跨视角的 Compact World State,重投影分数低
  • 纯隐式记忆(SSM):Compact 但没有几何监督,几何一致性和记忆一致性都差
  • GIM-World:兼具隐式记忆的 Compact 优势和显式记忆的结构化能力,两全其美

定性结果:四百帧对比

图 2 和图 3 展示了第一人称和第三人称场景上的 400 帧对比:

  • Baseline:100 帧内场景布局就开始漂移,墙壁和地标变形消失,预测内容很快与原始环境脱节
  • 第三人称视角:Baseline 要么丢失可控角色,要么角色位置不一致
  • GIM-World:仅有个别帧的视角偏移,整体场景几何、布局、地标结构和角色姿态与真值保持一致

极限测试:一千帧的回环一致性

图 4 展示了单一第一人称场景上 一千帧 的生成结果:

  • 第 100 帧和第 750 帧标记了两个相近的相机位姿
  • 这两个视角相隔 600 多帧
  • 绿色和红色框内的小物体,在两次 revisit 时保持:
    • 相同的空间位置
    • 相同的相对排列
    • 相同的纹理细节

这意味着:隐式记忆存储了一个稳定的 3D 场景表示,而不是仅仅传播短期上下文。世界几何在长达千帧的自回归生成中保持全局一致。


四、技术深挖:为什么这个设计有效?

1. Geometry-as-Memory vs Geometry-as-Input

现有方法把几何信息注入生成器:

  • 直接条件化:把几何 Token 或点图投影与生成器输入拼接
  • 特征监督:在训练时对齐生成器 Backbone 特征与 3D 特征
  • 后训练对齐:从 3D 特征推导奖励或偏好,做 DPO/RL

GIM-World 的反转视角

  • 几何不是生成器的输入信号,而是记忆的属性
  • 记忆状态应该编码一个世界模型,这个世界模型是几何一致的
  • 生成器从记忆中读取条件,自然获得几何一致的信息

为什么更好?

  • 生成器不需要同时处理几何和 Appearance,职责分离
  • 记忆被显式约束为"可查询的 3D 表示",有明确的几何意义
  • 推理时丢弃几何老师,零额外开销

2. 相机可查询性的力量

传统的 3D 表示方法(如 NeRF、3DGS)需要重建场景,然后渲染。GIM-World 不需要:

  • 给定任意相机位姿,直接从记忆中"解码"该视角的特征
  • 不需要显式重建,不需要存储点云或网格
  • 解码器是轻量级的,运行极快

这相当于把 "渲染"变成了"查询"——不是从 3D 模型生成图像,而是从记忆状态直接提取视角相关的信息。

3. 信息引导剪枝的直觉

历史帧中有大量冗余:

  • 相邻帧视角相似,内容几乎相同
  • 静止区域在数百帧内不变
  • 动态区域才需要被记住

信息引导剪枝的本质:

  • 保留"能提供最多新信息"的帧
  • 丢弃"能被已有帧预测"的帧
  • 用贪心算法近似最优子集

这使得有限容量的记忆 Token 能携带最大化的信息


五、对行业的意义

1. 可交互虚拟世界的基础

长视频生成不只是"做出更长的视频"。它是通往可交互虚拟世界的必经之路:

  • 具身智能(Embodied AI):机器人在模拟环境中训练,需要长期一致的世界模型
  • 游戏引擎:开放世界游戏需要玩家走多远都能回来,场景一致
  • VR/AR:持久化的虚拟空间,不能"走远就忘"

GIM-World 首次展示了千帧级别的空间稳定生成,这是从"视频生成"到"世界模拟"的关键跃迁。

2. 对快手可灵的意义

快手可灵(Kling)团队是论文的核心作者团队。这暗示了:

  • 可灵的下一代模型可能正在集成 GIM-World 技术
  • 长视频生成的"几何一致性"问题可能正在被解决
  • 可灵在视频生成的技术深度上,正在从"Appearance 逼真"走向"物理一致"

3. 与其他工作的对比

工作 方法 优势 劣势
VMem (牛津) 显式几何记忆(Surfel) 可解释、可插拔 需要重建、工程复杂
SSM 纯隐式状态 紧凑、快速 无几何约束
GIM-World 隐式+几何监督 紧凑+几何一致 依赖 3D 老师训练

GIM-World 走的是"中间路线":既有隐式记忆的效率,又有显式几何的结构化。这是当前最 practical 的方案。


六、局限与未来方向

1. 训练依赖 3D 基础模型

几何监督需要冻结的 3D 老师(如 VGGT)。这要求:

  • 3D 老师本身质量要高
  • 训练数据需要相机位姿标注
  • 对于无相机信息的视频数据,需要先做相机估计

2. 动态物体的挑战

论文主要关注静态场景的几何一致性。对于动态物体:

  • 可查询几何头需要处理移动物体
  • 信息引导剪枝可能误删包含动态变化的关键帧
  • 这是未来需要扩展的方向

3. 从视频到世界模型

GIM-World 目前还是一个视频生成框架,不是完整的世界模型(缺少物理交互、因果推理)。下一步:

  • 集成动作-物理反馈循环
  • 支持多智能体交互
  • 与 RL 训练结合,用于具身智能

七、结论:记忆的质变

GIM-World 的核心贡献,不是某个具体的模块,而是一种范式转移

从"记住 Appearance"到"记住 3D 世界"

传统视频生成模型记忆的是"像素的排列"。GIM-World 记忆的是"空间的结构"。这带来了质变:

  • 走到远处再回来,场景仍然一致
  • 换个角度看同一个物体,几何关系正确
  • 上千帧的自回归生成,不崩溃

推理开销不到扩散主干的 0.3%,这意味着这个技术在工程上是完全可行的。不需要额外的几何插件,不需要昂贵的重建管线,只需要在训练时加入一个"几何老师"。

对于长视频生成、可交互虚拟世界、具身智能模拟来说,GIM-World 提供了一个实用的、可扩展的、几何一致的记忆框架

"在 AI 的脑海里构建一个 3D 物理空间"——这个愿景,正在变成现实。


参考论文

  • Wei, Z., et al. (2026). "Geometry-Aware Implicit Memory for Video World Models." arXiv:2606.02436
  • 项目页:https://gim-world.github.io/
  • 相关工作:VMem (2025), SSM (2025), VideoSSM (2025), FramePack (2025), CaM (2025)

#GIMWorld #长视频生成 #几何记忆 #视频世界模型 #3D一致性 #可灵 #快手 #南京大学 #清华大学 #AI视频生成 #具身智能 #虚拟世界

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录