"记忆不是过去的复印件,而是现在的建构。" —— 亨利·柏格森
🎬 开篇:当视频生成遇上"失忆症"
想象你正在看一部电影。镜头缓缓推进,穿过一座宏伟的城堡大门,沿着螺旋楼梯上升,推开一扇厚重的木门——然后,画面里的城堡突然变了。大门从哥特式变成了巴洛克式,楼梯从石头变成了木头,窗外的风景从山脉变成了海洋。你揉揉眼睛,以为是自己走神了。但再看一遍,变化依旧存在。
这不是恐怖片的剧情,而是当前 视频世界模型(Video World Models) 的日常。
视频世界模型是什么?它们是AI系统,能根据一张图片或一段文字,生成连续的视频。你可以给它们一张客厅的照片,说"镜头从左走到右",它们会生成一段摄像机横扫客厅的视频。听起来很酷,对吧?
但有一个致命的问题:一致性。当你让镜头离开客厅,转一圈再回来时,墙壁的颜色变了,沙发的位置偏移了,窗户的大小不对了。AI就像一个有严重失忆症的导演,每一帧都重新设计场景,完全不记得上一帧发生了什么。
在人类眼中,世界是有持续性的。物体不会因为你移开视线就变形。但AI生成的视频里,世界就像流沙——你一转背,它就重塑自己。
这个问题有一个技术名字:3D一致性(3D Consistency)。要生成长视频,AI必须"记住"场景的三维结构,并在镜头移动时保持这个结构不变。否则,生成的视频就像一场不断篡改自己规则的梦。
今天要讲的论文——Mirage: Latent Spatial Memory for Video World Models——正是来解决这个"失忆症"的。而且它提出的方案,优雅得像一个数学寓言。
🧊 第一部分:RGB点云的困境——在像素与语义之间走钢丝
1.1 现有方法:显式3D缓存的昂贵游戏
在Mirage之前,解决3D一致性的主流方法是显式3D缓存(Explicit 3D Cache)——直白地说,就是把场景做成一个3D点云,存在内存里。
想象你用激光雷达扫描一个房间,得到数百万个点的三维坐标。每个点不仅有位置(x,y,z),还有颜色(RGB)。这就是点云——场景的三维数字复刻。
视频生成时,如果镜头移动到新的角度,系统就从点云中"看到"那个角度的景象。这有点像虚拟现实的原理:你转动头部,VR设备实时渲染你看到的世界。
但这里有一个致命的效率问题:
点云在RGB空间,而AI生成在潜在空间(Latent Space)。
什么意思?
现代视频生成模型(如Stable Diffusion、CogVideoX)不在像素层面直接操作。它们使用一种叫做变分自编码器(VAE)的技术,把图像压缩到一个低维的"潜在空间"。在这个空间里,一张1024×1024的图像可能只被表示为64×64×4的向量——压缩了大约256倍。这个压缩后的表示,就是潜在表示(Latent Representation)。
好处是:在潜在空间生成,比在原像素空间生成快得多、省资源得多。坏处是:潜在表示是抽象的,人类看不懂。
现在问题来了:
- AI生成视频时,工作在潜在空间(高效、抽象)
- 3D点云存储在RGB空间(直观、原始)
这两者之间,需要一座桥梁。这座桥梁就是:反复渲染(Render)和重新编码(Re-encode)。
具体流程:
- 从点云渲染出当前视角的RGB图像(像在3D游戏里截图)
- 把这个RGB图像通过VAE编码成潜在表示
- 把潜在表示输入AI模型,生成下一帧
- 下一帧再解码回RGB,更新点云
- 如此循环
这个"RGB往返"(RGB Detour)有两个致命伤:
效率低下:每生成一帧,都要渲染一次点云+编码一次VAE。如果点云有100万个点,渲染就是重计算量。而且VAE的编码/解码不是免费的,它占用了大量的GPU时间和内存。
信息损失:VAE的压缩是有损的。你先把图像编码成潜在向量(丢失一些细节),然后解码回来(再丢失一些细节)。每走一次这个往返,图像就像被复印了太多次的老照片,越来越模糊。纹理细节、光影微妙变化、材质质感——都被慢慢磨平。
论文作者们测量了现有系统的性能:
- 生成512帧视频需要数十秒甚至数分钟
- 3D点云缓存占用几十GB的GPU内存
- 长视频(几百帧)生成时,3D一致性急剧下降,图像质量退化明显
这就像一个翻译,每次翻译都要先把中文翻译成英文,再翻译回中文,然后再翻译一次。经过几次后,原文的韵味荡然无存。
🌟 第二部分:Mirage的顿悟——直接在潜在空间建造记忆
2.1 核心洞察:为什么不在潜在空间存3D记忆?
Mirage的作者们提出了一个看似简单却革命性的问题:
"如果AI生成在潜在空间,为什么我们非要把记忆存在RGB空间?"
这就像问:"如果我们在脑子里用概念思考,为什么非要把记忆存在照片里?"
人类的记忆不是像素存储的。你记得母亲的脸,不是因为你脑子里存了一张高分辨率的照片,而是因为你存储了一种抽象的面部表征——眼睛的形状、笑容的弧度、声音的频率。当你"回忆"母亲时,你实际上是在重建这个抽象表征,而不是调取一张图像。
Mirage借鉴了这个思想:直接在潜在空间存储3D场景,完全跳过RGB往返。
具体来说:
传统方法:
点云(RGB空间)→ 渲染 → RGB图像 → VAE编码 → 潜在空间(AI生成)→ VAE解码 → RGB图像 → 更新点云
Mirage的方法:
潜在空间3D缓存 → 直接投影 → 潜在空间(AI生成)→ 直接更新潜在缓存
没有RGB往返。没有渲染。没有VAE的反复编码和解码。潜在空间到潜在空间,一气呵成。
2.2 潜在空间记忆的结构:用"幽灵令牌"代替彩色点
传统的3D点云,每个点存储的是:
- 位置(x, y, z)
- 颜色(r, g, b)
Mirage的潜在空间记忆(Latent Spatial Memory),每个点存储的是:
- 位置(x, y, z)
- 潜在特征向量(latent feature vector)
这个潜在特征向量是什么?它是VAE对某个图像区域编码后的抽象表示。比如,一个64×64的潜在网格对应原图256×256的区域,每个潜在"像素"实际上编码了原图中一个4×4区域的纹理、形状、颜色等信息——但不是以人类可读的RGB形式,而是以机器可理解的压缩形式。
想象你有一张非常模糊的低分辨率照片,但它神奇地包含了高分辨率照片的所有信息——只是以一种需要特殊"眼镜"才能读取的格式。潜在特征就是这样的"魔法压缩"。
Mirage把场景存储为"潜在点云":每个3D点附带一个潜在特征向量。当需要生成新视角时,它不需要渲染RGB,而是直接把3D潜在点云投影到新的视角,得到潜在空间的2D特征图,然后直接输入AI生成模型。
这就像一个建筑师,不再画详细的水彩效果图,而是直接用3D模型和材质参数。当需要新角度的视图时,他直接从3D模型导出,而不是重新画一张水彩。
🏗️ 第三部分:技术架构——如何构建和更新潜在记忆
3.1 深度引导的反向投影:从2D到3D的魔法
第一步是把初始图像转换成3D潜在记忆。Mirage用了一个巧妙的技术:深度引导反向投影(Depth-Guided Back-Projection)。
流程:
- 输入一张初始图像
- 用单目深度估计模型(如MiDaS)预测每个像素的深度——也就是每个像素离相机有多远
- 将图像通过VAE编码成潜在表示(64×64的潜在网格)
- 对于每个潜在"像素",根据对应的深度,把它"投射"到3D空间中的某个位置
这个过程叫做反向投影(Back-Projection)。它把2D图像"立起来",变成一个3D的潜在点云。每个点都有:
- 3D坐标(根据深度和相机参数计算)
- 潜在特征(来自VAE编码)
3.2 潜在空间投影:从新角度"看"记忆
当镜头移动到新的视角时,Mirage需要"读取"记忆。传统方法会渲染RGB点云,但Mirage直接做潜在空间投影:
- 把3D潜在点云投影到目标视角的相机平面上
- 因为3D点云是稀疏的,投影后需要 填补空洞(某些像素没有对应的3D点)
- 使用插值(如三线性插值)填补缺失区域
- 最终得到一个目标视角的潜在特征图
这个潜在特征图直接输入AI生成模型的 ControlNet分支。ControlNet是一种技术,允许在保持主模型能力的同时,注入额外的条件(如姿态、深度、边缘图)。这里,注入的条件就是"潜在记忆"。
生成模型在 去噪(Denoising) 过程中,每一步都会参考这个潜在记忆,确保生成的内容在几何上与记忆一致。
3.3 动态过滤:只更新"该更新"的东西
世界是动态的。场景中有不动的物体(墙壁、地板),也有动的物体(人、车、飘动的窗帘)。如果Mirage把所有东西都存进记忆,然后一直更新,那么记忆会迅速混乱。
Mirage的解决方案是:动态物体过滤(Dynamic Object Filtering)。
具体来说:
- 生成新的视频帧后,用 分割模型(如SAM)识别出动态物体和天空区域
- 只把 静态区域 的潜在特征更新到记忆池中
- 动态区域和天空区域被忽略,不污染记忆
这就像人类记忆:你记住办公室的布局(静态),但不需要记住每一个同事每时每刻的位置(动态)。如果你的记忆不断记录同事移动,你会疯掉的。
3.4 记忆生命周期:初始化→读取→去噪→更新
Mirage的完整工作流程是一个循环:
初始化(Initialization):
- 输入初始图像
- 深度估计 + VAE编码 + 反向投影
- 创建初始的3D潜在记忆池
读取(Readout):
- 给定目标相机姿态
- 投影3D潜在记忆到目标视角
- 得到潜在特征图,注入ControlNet
去噪(Denoising):
- 生成模型(扩散模型)在潜在空间中生成新的帧
- 每步去噪都参考ControlNet提供的记忆条件
- 保持3D几何一致性
更新(Update):
- 生成的帧解码后,重新编码成潜在表示
- 动态过滤(去掉动态物体和天空)
- 反向投影到3D空间,更新记忆池
- 新信息覆盖旧信息(或加权平均)
这个循环重复,生成连贯的长视频。每一帧都基于之前所有帧的记忆,世界不再是一盘散沙,而是有连续性的整体。
🚀 第四部分:实验结果——10倍速、55倍省、质的飞跃
4.1 效率革命:从数分钟到数秒
Mirage最惊人的是效率提升。论文报告了三个关键数字:
| 指标 | 传统RGB点云 | Mirage | 提升倍数 |
|---|---|---|---|
| 生成速度 | 基准 | 10.57× | 10.57倍 |
| 3D缓存内存 | 基准 | 1/55 | 55倍 |
| WorldScore平均 | 基准 | 70.36 | 质量提升 |
10.57倍更快:这意味着以前生成一段视频需要5分钟,现在只需要28秒。这不仅是数字游戏,它让视频世界模型从"离线批处理"变成了"准实时交互"。
55倍内存降低:RGB点云缓存需要存储每个点的颜色(3个通道),而潜在特征虽然维度更多(4个通道),但空间分辨率低得多(1/16的线性分辨率,1/256的面积分辨率)。而且不需要维护巨大的RGB帧缓冲区。总内存占用从几十GB降到几百MB。
4.2 质量评估:WorldScore上的新标杆
WorldScore是一个综合性的视频世界模型评估基准,测试多个维度:
- 3D一致性:物体在不同视角下是否保持形状和位置
- 照片一致性:图像质量是否清晰、逼真
- 风格一致性:视频风格是否统一(如光影、色调)
- 运动准确性:物体的运动是否符合物理规律
- 运动平滑度:视频是否流畅,不抖动
Mirage在WorldScore上取得了 70.36 的平均分,超过了所有现有方法(包括专门做3D一致性的模型如Spatia、Voyager,以及通用视频生成模型如CogVideoX、Wan2.1)。
关键对比:
| 模型 | 3D一致性 | 照片一致性 | 风格一致性 | 总体 |
|---|---|---|---|---|
| CogVideoX-I2V | 86.21 | 88.12 | 83.22 | 60.64 |
| Spatia | 91.2 | 92.5 | 85.1 | 66.3 |
| Mirage | 92.21 | 93.95 | 96.91 | 70.36 |
Mirage不仅在3D一致性上领先,在照片和风格一致性上也大幅超越。这说明,跳过RGB往返不仅提升了效率,还 提升了质量——因为避免了VAE反复编码解码带来的信息损失。
4.3 长程生成:大回环测试
最能考验3D一致性的,是 大回环(Large Loop) 测试:让相机沿着一条路径移动,最终回到起点。如果3D一致性不好,回到起点时场景会完全变了样。
论文在RealEstate10K数据集上做了这个测试。RealEstate10K是真实室内环境的视频数据集,相机沿着复杂轨迹移动。
闭环指标(回到起点时与初始帧的相似度):
| 模型 | PSNR(越高越好) | SSIM(越高越好) | LPIPS(越低越好) |
|---|---|---|---|
| FlexWorld | 12.20 | 0.428 | 0.598 |
| Voyager | 17.66 | 0.540 | 0.380 |
| Spatia | 19.38 | 0.579 | 0.213 |
| Mirage | 20.05 | 0.825 | 0.228 |
Mirage在PSNR和SSIM上大幅领先,说明回到起点时,场景与初始状态高度一致。LPIPS略低于Spatia,但综合而言,Mirage的闭环性能是最强的。
4.4 消融实验:每个设计决策的价值
论文还做了细致的消融实验,验证每个组件的必要性:
1. 潜在 vs RGB记忆:
- 用同样的架构,但把潜在记忆换成RGB点云
- 结果:平均分数从70.36降到67.71(-2.65分)
- 3D一致性从92.21降到90.75(-1.46分)
- 照片一致性从93.95降到91.10(-2.85分)
- 结论:RGB往返确实造成了信息损失
2. 特征上采样 vs 几何下采样:
- 一种替代方案:把潜在特征上采样到像素分辨率,再做3D反向投影,生成时降采样
- 结果:平均分数从70.36暴跌到60.85(-9.51分)
- 3D一致性从92.21降到84.90(-7.31分)
- 结论:在错误的空间尺度做操作会破坏预训练模型的分布,几何分辨率必须与潜在网格对齐
3. 无动态过滤:
- 去掉动态物体和天空的过滤,所有内容都更新到记忆
- 结果:平均分数从70.36降到61.20(-9.16分)
- 3D一致性从92.21降到80.88(-11.33分)
- 照片一致性从93.95降到76.10(-17.85分)
- 结论:动态物体污染记忆是长程一致性的头号杀手
4. 单阶段训练 vs 两阶段训练:
- 原来Mirage分两个阶段训练:先训练ControlNet侧分支,再微调LoRA适配层
- 如果单阶段联合训练,分数从70.36降到63.18(-7.18分)
- 结论:分阶段训练避免了主模型过早适应不成熟的条件信号
🌌 第五部分:更深远的意义——记忆的本质与压缩的哲学
5.1 从RGB到潜在:信息表示的哲学
Mirage的论文让我思考一个更深层次的问题:什么是"记住"一个场景?
传统方法认为,记住场景就是存储像素的颜色。这很直观——人类视网膜上投射的,不也是像素吗?
但Mirage指出,这种直觉是误导的。人类视网膜上的像素,在到达视觉皮层的第一层(V1),就被转换成了 边缘、方向、运动 的抽象表示。更高层的视觉皮层,进一步抽象为物体、场景、关系。到前额叶皮层,这些信息已经与 语言、情感、意图 交织在一起。
人类没有在任何地方存储"像素级记忆"。我们的记忆是高度抽象的、压缩的、语义化的。你记得"那张桌子是木头的、棕色、在左边",而不是记得桌子在视网膜上的每个像素。
Mirage的潜在空间记忆,更接近人类记忆的本质。它不是场景的"复印件",而是场景的 理解。潜在特征向量编码了纹理、形状、材质的压缩表示,而且与生成模型的语义空间对齐。
5.2 压缩即智能:从VAE到世界模型
VAE的压缩比率是关键。原始图像可能是256×256×3 = 196,608个数值。压缩后的潜在表示是64×64×4 = 16,384个数值。压缩了约 12倍。但这个压缩不是均匀的信息丢弃——VAE学会了 哪些信息重要,哪些不重要。
重要的信息(如物体的轮廓、主要纹理、场景结构)被保留。不重要的信息(如噪声、微小纹理、光照细节)被丢弃。这正是 智能压缩——它不是简单的压缩,而是 理解后的压缩。
Mirage利用了这个压缩的"智能性"。因为潜在特征已经"理解"了场景,在潜在空间做3D操作,比在RGB空间做操作更"语义正确"。
这揭示了一个更广泛的原理:智能系统应该在最高级别的抽象上操作,而不是在最低级别的原始数据上。
5.3 通往实时世界模拟的路径
Mirage的效率提升(10.57倍速度,55倍内存)不是终点,而是起点。
如果视频世界模型能实时运行(每秒30帧),它将打开全新的应用:
- 实时虚拟现实:用户走进一个房间,AI实时生成无限延伸的虚拟世界,且与物理世界一致
- 机器人模拟器:机器人可以在AI生成的虚拟世界里训练,然后把学到的技能迁移到真实世界
- 自动驾驶测试:生成数百万公里的虚拟驾驶场景,测试极端情况(如"突然窜出的行人"),而不需要真实道路测试
- 建筑设计:建筑师可以实时"走进"自己的设计,在建成之前体验空间
但当前的速度还不够。10.57倍提升是相对于极慢基线的,绝对速度仍然不足以实时生成高分辨率视频。未来需要在几个方向继续突破:
- 更高效的潜在表示:进一步压缩,减少潜在特征的维度
- 稀疏记忆:不是所有场景区域都需要记忆,只记忆重要的物体和结构
- 层级记忆:像人类一样,分短期记忆(当前场景)和长期记忆(建筑的整体结构)
- 自适应分辨率:近处物体高分辨率,远处物体低分辨率
Mirage迈出了关键的一步:证明了在潜在空间存储记忆是可行的、高效的、高质量的。这条路,通向真正的"世界模拟器"——一个AI能实时理解、记忆、想象和操作的世界。
🔮 尾声:海市蜃楼与真实
论文的名字叫Mirage——海市蜃楼。这是一个有趣的选择。
海市蜃楼是光的幻觉,是沙漠中旅人看到的虚假绿洲。但Mirage系统做的恰恰相反:它在消除幻觉,建立真实。
传统RGB点云方法,因为反复渲染和压缩,生成的视频像一场不断退化的梦——每帧都在轻微变形,最终面目全非。Mirage的潜在记忆,像一块 锚,把视频固定在真实的三维几何上。它不是海市蜃楼,而是 反海市蜃楼——让虚假的影像变得真实。
但"Mirage"这个名字还有另一层含义:在科幻和哲学中,海市蜃楼是对真实本质的隐喻。我们的感知是否也是一种Mirage?大脑是否在构建一个与物理世界对应但并非完全相同的模型?
Mirage系统做的,正是给AI一个 内在的世界模型。它不只是生成视频,它是在维持一个对世界的一致理解。这个理解与物理世界的几何对应,不是像素级的复制,而是结构级的同构。
这引出了一个疯狂的设想:如果Mirage的记忆足够大、足够丰富,它不只是"记住"一个场景,而是理解一个场景。它能回答"如果我把椅子移到窗边会怎样?"——不是通过生成视频,而是通过在记忆中操作3D结构,预测结果。
这种能力,叫做 世界模型(World Model)——不是生成视频的工具,而是理解因果和物理的引擎。DeepMind的Yann LeCun说过,世界模型是实现通用人工智能的关键。Mirage是通往这个方向的一个具体步骤。
当AI能记住世界的结构,并在想象中操作这个结构,它就不再是一个模式匹配机器。它开始拥有一个 内部现实——一个关于世界的、压缩的、可操作的心智模型。
这,也许才是Mirage这个名字的真正含义:一个系统,它生成的不是幻觉,而是一个内在的、连贯的、可操作的世界——一个海市蜃楼,但却是真的。
📚 参考文献
-
Mirage: Latent Spatial Memory for Video World Models
- arXiv: 2606.09828, 2026
- 作者:Weijie Wang, Haoyu Zhao, Yifan Yang, Feng Chen, Zeyu Zhang, Yefei He, Zicheng Duan, Donny Y. Chen, Yuqing Yang, Bohan Zhuang
- 机构:浙江大学、微软研究院、阿德莱德大学、莫纳什大学
- 核心贡献:提出潜在空间记忆(Latent Spatial Memory),在扩散模型的潜在空间中直接存储3D场景信息,避免了传统RGB点云方法的反复渲染和编码。实现10.57倍生成速度提升、55倍内存降低,在WorldScore上达到70.36的SOTA性能。
-
WorldScore: A Comprehensive Benchmark for World Generation
- 作者:WorldScore团队(具体作者待补充)
- 核心贡献:视频世界模型的综合评估基准,测试3D一致性、照片质量、风格一致性、运动准确性等维度。
-
RealEstate10K: A Large Dataset of Camera Trajectories and Layouts for Indoor Scenes
- 作者:Z. Zhang et al.
- 发表于:CVPR, 2018
- 核心贡献:真实室内环境视频数据集,用于评估新视角合成和闭环一致性。
-
ControlNet: Adding Conditional Control to Text-to-Image Diffusion Models
- 作者:L. Zhang et al.
- arXiv: 2302.05543, 2023
- 核心贡献:Mirage使用的条件注入技术,允许在扩散模型中注入额外的控制条件(如深度、姿态、边缘图)。
-
MiDaS: Towards Robust Monocular Depth Estimation
- 作者:R. Ranftl et al.
- 发表于:IEEE TPAMI, 2022
- 核心贡献:Mirage使用的单目深度估计模型,用于从2D图像推断3D深度。
-
Segment Anything (SAM)
- 作者:A. Kirillov et al.
- arXiv: 2304.02643, 2023
- 核心贡献:Mirage使用的分割模型,用于动态物体过滤。
-
High-Resolution Image Synthesis with Latent Diffusion Models
- 作者:R. Rombach et al.
- 发表于:CVPR, 2022
- 核心贡献:Latent Diffusion Models(LDM)的开创性工作,奠定了在潜在空间进行扩散生成的基础。
#论文 #视频生成 #世界模型 #3D一致性 #潜在空间 #Mirage #小凯
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。