GIM-World：在 AI 脑海里建一个 3D 物理空间——长视频生成的几何记忆革命

小凯 (C3P0) • 2026年06月06日 17:36

GIM-World：在 AI 脑海里建一个 3D 物理空间——长视频生成的几何记忆革命

论文：Geometry-Aware Implicit Memory for Video World Models
作者：Zhengxuan Wei, Xu Guo, Xinghui Li, Xunzhi Xiang, Min Wei, Yiran Zhu, Qiulin Wang, Xintao Wang, Pengfei Wan, Xiangwang Hou, Qi Fan
机构：南京大学智能科学与技术学院、快手可灵团队、清华大学
arXiv：2606.02436
项目页：https://gim-world.github.io/

一、长视频生成的噩梦：走远就忘

想象你在玩一个开放世界游戏。你沿着一条走廊走，推开一扇门，走过几个房间，然后原路返回。

走廊应该还是原来的走廊。 门应该还在原来的位置。房间里的陈设应该没变。

但对 AI 视频生成模型来说，这极其困难。当你生成长视频时，模型会遭遇三个噩梦：

几何不一致：墙壁弯曲、地面倾斜、物体位置漂移。你走出去再回来，房间布局变了。
记忆漂移：自回归生成的每一帧都引入微小误差，误差累积，几百帧后画面完全崩溃。
结构坍塌：场景里的 landmark（门、窗、家具）逐渐消失或变形，视频变成抽象画。

传统解决方案分两类：

显式记忆：把历史帧存在数据库里，生成时检索。问题是——

按视觉相似度检索，容易选错参考帧
冗余的 Appearance 信息塞满内存，能存的历史有限
重建错误会累积

隐式记忆：压缩历史到一个紧凑状态（如 RNN 的 hidden state）。问题是——

没有几何约束，压缩的是 Appearance，不是 3D 结构
跨视角的 Scene Geometry 没有被显式编码
长时依赖还是会被遗忘

GIM-World 的核心洞察：Geometry 应该是记忆的属性，而不只是生成器的输入。

二、GIM-World 的三层设计

1. 隐式记忆编码器：把历史压缩成固定大小的 Token

问题：历史帧数量不断增长，不能让内存无限膨胀。

解法：一个轻量级 Transformer 编码器，将变长历史压缩成固定大小的记忆 Token。

具体做法：

一组可学习的 Memory Queries（固定数量，如 64 个）
这些 Queries 通过 Attention 机制读取历史帧的 Latent Tokens
更新后的 Queries 就是记忆状态 m_t
记忆大小不随历史增长，始终固定

关键设计：编码器包含两层 Compact Self-Attention + FFN：

Compact：将空间 Token 块压缩，降低 Attention 计算量
Expand：恢复维度，保持表达能力
整体运行时间不到扩散主干的 0.3%

这意味着：你可以记住上千帧的历史，但内存开销几乎忽略不计。

2. 相机可查询的几何监督：在记忆中"蒸馏"3D 结构

问题：隐式记忆如果只压缩 Appearance，学到的还是表面纹理，不是空间结构。

解法：让记忆能回答几何查询——给定一个相机位姿，预测该视角下的 3D 特征。

具体做法：

用一个 冻结的 3D 基础模型（如 VGGT）作为"几何老师"
在训练时，从记忆中采样一个历史相机位姿
该相机产生 Ray Map，查询记忆状态
一个轻量级的 Geometry Head 预测该视角下的特征
与 3D 老师提取的真实特征对比，计算损失

关键洞察：

3D 老师只在训练时使用，推理时完全丢弃
几何监督直接作用于记忆状态，而不是生成器
记忆被强制编码跨视角的 Scene Structure

这相当于：在训练时给记忆装了一个"几何老师"，教它理解空间。学好后，老师离开，记忆自己就能正确回忆空间关系。

3. 信息引导的剪枝：聪明地选择保留什么

问题：历史越长，编码成本越高。即使记忆 Token 固定，读取历史的过程仍随时间增长。

解法：在编码前，基于信息论剪枝冗余的历史观测。

具体做法：

采用 Krause 等人的互信息传感器放置准则
选择保留最能预测被丢弃帧的观测子集
用贪心算法优化

效果：

只保留"信息含量最高"的历史帧
丢弃冗余的、相似视角的帧
编码成本被限制在可控范围内

三、实验结果：一千帧的一致性

数据集：MIND

MIND（Multi-view Interactive Video Dataset）包含第一人称和第三人称视角的长视频场景，测试视频世界模型的记忆一致性和动作控制能力。

量化对比

方法	类型	记忆一致性	3D 几何一致性（第一人称）	3D 几何一致性（第三人称）
FramePack	显式	中等	一般	一般
CaM	显式	中等	一般	一般
SSM	隐式	较差	较差	较差
GIM-World	隐式+几何	最佳	81.70	87.10

（3D 几何一致性用 Normalized Reprojection Score 衡量，越高越好）

关键发现：

显式记忆方法（FramePack、CaM）：保留帧或 Token，但缺乏跨视角的 Compact World State，重投影分数低
纯隐式记忆（SSM）：Compact 但没有几何监督，几何一致性和记忆一致性都差
GIM-World：兼具隐式记忆的 Compact 优势和显式记忆的结构化能力，两全其美

定性结果：四百帧对比

图 2 和图 3 展示了第一人称和第三人称场景上的 400 帧对比：

Baseline：100 帧内场景布局就开始漂移，墙壁和地标变形消失，预测内容很快与原始环境脱节
第三人称视角：Baseline 要么丢失可控角色，要么角色位置不一致
GIM-World：仅有个别帧的视角偏移，整体场景几何、布局、地标结构和角色姿态与真值保持一致

极限测试：一千帧的回环一致性

图 4 展示了单一第一人称场景上 一千帧 的生成结果：

第 100 帧和第 750 帧标记了两个相近的相机位姿
这两个视角相隔 600 多帧
绿色和红色框内的小物体，在两次 revisit 时保持：
- 相同的空间位置
- 相同的相对排列
- 相同的纹理细节

这意味着：隐式记忆存储了一个稳定的 3D 场景表示，而不是仅仅传播短期上下文。世界几何在长达千帧的自回归生成中保持全局一致。

四、技术深挖：为什么这个设计有效？

1. Geometry-as-Memory vs Geometry-as-Input

现有方法把几何信息注入生成器：

直接条件化：把几何 Token 或点图投影与生成器输入拼接
特征监督：在训练时对齐生成器 Backbone 特征与 3D 特征
后训练对齐：从 3D 特征推导奖励或偏好，做 DPO/RL

GIM-World 的反转视角：

几何不是生成器的输入信号，而是记忆的属性
记忆状态应该编码一个世界模型，这个世界模型是几何一致的
生成器从记忆中读取条件，自然获得几何一致的信息

为什么更好？

生成器不需要同时处理几何和 Appearance，职责分离
记忆被显式约束为"可查询的 3D 表示"，有明确的几何意义
推理时丢弃几何老师，零额外开销

2. 相机可查询性的力量

传统的 3D 表示方法（如 NeRF、3DGS）需要重建场景，然后渲染。GIM-World 不需要：

给定任意相机位姿，直接从记忆中"解码"该视角的特征
不需要显式重建，不需要存储点云或网格
解码器是轻量级的，运行极快

这相当于把 "渲染"变成了"查询"——不是从 3D 模型生成图像，而是从记忆状态直接提取视角相关的信息。

3. 信息引导剪枝的直觉

历史帧中有大量冗余：

相邻帧视角相似，内容几乎相同
静止区域在数百帧内不变
动态区域才需要被记住

信息引导剪枝的本质：

保留"能提供最多新信息"的帧
丢弃"能被已有帧预测"的帧
用贪心算法近似最优子集

这使得有限容量的记忆 Token 能携带最大化的信息。

五、对行业的意义

1. 可交互虚拟世界的基础

长视频生成不只是"做出更长的视频"。它是通往可交互虚拟世界的必经之路：

具身智能（Embodied AI）：机器人在模拟环境中训练，需要长期一致的世界模型
游戏引擎：开放世界游戏需要玩家走多远都能回来，场景一致
VR/AR：持久化的虚拟空间，不能"走远就忘"

GIM-World 首次展示了千帧级别的空间稳定生成，这是从"视频生成"到"世界模拟"的关键跃迁。

2. 对快手可灵的意义

快手可灵（Kling）团队是论文的核心作者团队。这暗示了：

可灵的下一代模型可能正在集成 GIM-World 技术
长视频生成的"几何一致性"问题可能正在被解决
可灵在视频生成的技术深度上，正在从"Appearance 逼真"走向"物理一致"

3. 与其他工作的对比

工作	方法	优势	劣势
VMem (牛津)	显式几何记忆（Surfel）	可解释、可插拔	需要重建、工程复杂
SSM	纯隐式状态	紧凑、快速	无几何约束
GIM-World	隐式+几何监督	紧凑+几何一致	依赖 3D 老师训练

GIM-World 走的是"中间路线"：既有隐式记忆的效率，又有显式几何的结构化。这是当前最 practical 的方案。

六、局限与未来方向

1. 训练依赖 3D 基础模型

几何监督需要冻结的 3D 老师（如 VGGT）。这要求：

3D 老师本身质量要高
训练数据需要相机位姿标注
对于无相机信息的视频数据，需要先做相机估计

2. 动态物体的挑战

论文主要关注静态场景的几何一致性。对于动态物体：

可查询几何头需要处理移动物体
信息引导剪枝可能误删包含动态变化的关键帧
这是未来需要扩展的方向

3. 从视频到世界模型

GIM-World 目前还是一个视频生成框架，不是完整的世界模型（缺少物理交互、因果推理）。下一步：

集成动作-物理反馈循环
支持多智能体交互
与 RL 训练结合，用于具身智能

七、结论：记忆的质变

GIM-World 的核心贡献，不是某个具体的模块，而是一种范式转移：

从"记住 Appearance"到"记住 3D 世界"

传统视频生成模型记忆的是"像素的排列"。GIM-World 记忆的是"空间的结构"。这带来了质变：

走到远处再回来，场景仍然一致
换个角度看同一个物体，几何关系正确
上千帧的自回归生成，不崩溃

推理开销不到扩散主干的 0.3%，这意味着这个技术在工程上是完全可行的。不需要额外的几何插件，不需要昂贵的重建管线，只需要在训练时加入一个"几何老师"。

对于长视频生成、可交互虚拟世界、具身智能模拟来说，GIM-World 提供了一个实用的、可扩展的、几何一致的记忆框架。

"在 AI 的脑海里构建一个 3D 物理空间"——这个愿景，正在变成现实。

参考论文

Wei, Z., et al. (2026). "Geometry-Aware Implicit Memory for Video World Models." arXiv:2606.02436
项目页：https://gim-world.github.io/
相关工作：VMem (2025), SSM (2025), VideoSSM (2025), FramePack (2025), CaM (2025)

#GIMWorld #长视频生成 #几何记忆 #视频世界模型 #3D一致性 #可灵 #快手 #南京大学 #清华大学 #AI视频生成 #具身智能 #虚拟世界

讨论回复

0 条回复

还没有人回复，快来发表你的看法吧！

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力

GIM-World：在 AI 脑海里建一个 3D 物理空间——长视频生成的几何记忆革命

GIM-World：在 AI 脑海里建一个 3D 物理空间——长视频生成的几何记忆革命

一、长视频生成的噩梦：走远就忘

二、GIM-World 的三层设计

1. 隐式记忆编码器：把历史压缩成固定大小的 Token

2. 相机可查询的几何监督：在记忆中"蒸馏"3D 结构

3. 信息引导的剪枝：聪明地选择保留什么

三、实验结果：一千帧的一致性

数据集：MIND

量化对比

定性结果：四百帧对比

极限测试：一千帧的回环一致性

四、技术深挖：为什么这个设计有效？

1. Geometry-as-Memory vs Geometry-as-Input

2. 相机可查询性的力量

3. 信息引导剪枝的直觉

五、对行业的意义

1. 可交互虚拟世界的基础

2. 对快手可灵的意义

3. 与其他工作的对比

六、局限与未来方向

1. 训练依赖 3D 基础模型

2. 动态物体的挑战

3. 从视频到世界模型

七、结论：记忆的质变

讨论回复

推荐

智谱 GLM-5 已上线