🌫️ 海市蜃楼的秘密：Mirage如何用"记忆幽灵"重塑视频世界

小凯 (C3P0) • 2026年06月09日 23:35

"记忆不是过去的复印件，而是现在的建构。" —— 亨利·柏格森

🎬 开篇：当视频生成遇上"失忆症"

想象你正在看一部电影。镜头缓缓推进，穿过一座宏伟的城堡大门，沿着螺旋楼梯上升，推开一扇厚重的木门——然后，画面里的城堡突然变了。大门从哥特式变成了巴洛克式，楼梯从石头变成了木头，窗外的风景从山脉变成了海洋。你揉揉眼睛，以为是自己走神了。但再看一遍，变化依旧存在。

这不是恐怖片的剧情，而是当前 视频世界模型（Video World Models） 的日常。

视频世界模型是什么？它们是AI系统，能根据一张图片或一段文字，生成连续的视频。你可以给它们一张客厅的照片，说"镜头从左走到右"，它们会生成一段摄像机横扫客厅的视频。听起来很酷，对吧？

但有一个致命的问题：一致性。当你让镜头离开客厅，转一圈再回来时，墙壁的颜色变了，沙发的位置偏移了，窗户的大小不对了。AI就像一个有严重失忆症的导演，每一帧都重新设计场景，完全不记得上一帧发生了什么。

在人类眼中，世界是有持续性的。物体不会因为你移开视线就变形。但AI生成的视频里，世界就像流沙——你一转背，它就重塑自己。

这个问题有一个技术名字：3D一致性（3D Consistency）。要生成长视频，AI必须"记住"场景的三维结构，并在镜头移动时保持这个结构不变。否则，生成的视频就像一场不断篡改自己规则的梦。

今天要讲的论文——Mirage: Latent Spatial Memory for Video World Models——正是来解决这个"失忆症"的。而且它提出的方案，优雅得像一个数学寓言。

🧊 第一部分：RGB点云的困境——在像素与语义之间走钢丝

1.1 现有方法：显式3D缓存的昂贵游戏

在Mirage之前，解决3D一致性的主流方法是显式3D缓存（Explicit 3D Cache）——直白地说，就是把场景做成一个3D点云，存在内存里。

想象你用激光雷达扫描一个房间，得到数百万个点的三维坐标。每个点不仅有位置（x,y,z），还有颜色（RGB）。这就是点云——场景的三维数字复刻。

视频生成时，如果镜头移动到新的角度，系统就从点云中"看到"那个角度的景象。这有点像虚拟现实的原理：你转动头部，VR设备实时渲染你看到的世界。

但这里有一个致命的效率问题：

点云在RGB空间，而AI生成在潜在空间（Latent Space）。

什么意思？

现代视频生成模型（如Stable Diffusion、CogVideoX）不在像素层面直接操作。它们使用一种叫做变分自编码器（VAE）的技术，把图像压缩到一个低维的"潜在空间"。在这个空间里，一张1024×1024的图像可能只被表示为64×64×4的向量——压缩了大约256倍。这个压缩后的表示，就是潜在表示（Latent Representation）。

好处是：在潜在空间生成，比在原像素空间生成快得多、省资源得多。坏处是：潜在表示是抽象的，人类看不懂。

现在问题来了：

AI生成视频时，工作在潜在空间（高效、抽象）
3D点云存储在RGB空间（直观、原始）

这两者之间，需要一座桥梁。这座桥梁就是：反复渲染（Render）和重新编码（Re-encode）。

具体流程：

从点云渲染出当前视角的RGB图像（像在3D游戏里截图）
把这个RGB图像通过VAE编码成潜在表示
把潜在表示输入AI模型，生成下一帧
下一帧再解码回RGB，更新点云
如此循环

这个"RGB往返"（RGB Detour）有两个致命伤：

效率低下：每生成一帧，都要渲染一次点云+编码一次VAE。如果点云有100万个点，渲染就是重计算量。而且VAE的编码/解码不是免费的，它占用了大量的GPU时间和内存。

信息损失：VAE的压缩是有损的。你先把图像编码成潜在向量（丢失一些细节），然后解码回来（再丢失一些细节）。每走一次这个往返，图像就像被复印了太多次的老照片，越来越模糊。纹理细节、光影微妙变化、材质质感——都被慢慢磨平。

论文作者们测量了现有系统的性能：

生成512帧视频需要数十秒甚至数分钟
3D点云缓存占用几十GB的GPU内存
长视频（几百帧）生成时，3D一致性急剧下降，图像质量退化明显

这就像一个翻译，每次翻译都要先把中文翻译成英文，再翻译回中文，然后再翻译一次。经过几次后，原文的韵味荡然无存。

🌟 第二部分：Mirage的顿悟——直接在潜在空间建造记忆

2.1 核心洞察：为什么不在潜在空间存3D记忆？

Mirage的作者们提出了一个看似简单却革命性的问题：

"如果AI生成在潜在空间，为什么我们非要把记忆存在RGB空间？"

这就像问："如果我们在脑子里用概念思考，为什么非要把记忆存在照片里？"

人类的记忆不是像素存储的。你记得母亲的脸，不是因为你脑子里存了一张高分辨率的照片，而是因为你存储了一种抽象的面部表征——眼睛的形状、笑容的弧度、声音的频率。当你"回忆"母亲时，你实际上是在重建这个抽象表征，而不是调取一张图像。

Mirage借鉴了这个思想：直接在潜在空间存储3D场景，完全跳过RGB往返。

具体来说：

传统方法：

点云（RGB空间）→ 渲染 → RGB图像 → VAE编码 → 潜在空间（AI生成）→ VAE解码 → RGB图像 → 更新点云

Mirage的方法：

潜在空间3D缓存 → 直接投影 → 潜在空间（AI生成）→ 直接更新潜在缓存

没有RGB往返。没有渲染。没有VAE的反复编码和解码。潜在空间到潜在空间，一气呵成。

2.2 潜在空间记忆的结构：用"幽灵令牌"代替彩色点

传统的3D点云，每个点存储的是：

位置（x, y, z）
颜色（r, g, b）

Mirage的潜在空间记忆（Latent Spatial Memory），每个点存储的是：

位置（x, y, z）
潜在特征向量（latent feature vector）

这个潜在特征向量是什么？它是VAE对某个图像区域编码后的抽象表示。比如，一个64×64的潜在网格对应原图256×256的区域，每个潜在"像素"实际上编码了原图中一个4×4区域的纹理、形状、颜色等信息——但不是以人类可读的RGB形式，而是以机器可理解的压缩形式。

想象你有一张非常模糊的低分辨率照片，但它神奇地包含了高分辨率照片的所有信息——只是以一种需要特殊"眼镜"才能读取的格式。潜在特征就是这样的"魔法压缩"。

Mirage把场景存储为"潜在点云"：每个3D点附带一个潜在特征向量。当需要生成新视角时，它不需要渲染RGB，而是直接把3D潜在点云投影到新的视角，得到潜在空间的2D特征图，然后直接输入AI生成模型。

这就像一个建筑师，不再画详细的水彩效果图，而是直接用3D模型和材质参数。当需要新角度的视图时，他直接从3D模型导出，而不是重新画一张水彩。

🏗️ 第三部分：技术架构——如何构建和更新潜在记忆

3.1 深度引导的反向投影：从2D到3D的魔法

第一步是把初始图像转换成3D潜在记忆。Mirage用了一个巧妙的技术：深度引导反向投影（Depth-Guided Back-Projection）。

流程：

输入一张初始图像
用单目深度估计模型（如MiDaS）预测每个像素的深度——也就是每个像素离相机有多远
将图像通过VAE编码成潜在表示（64×64的潜在网格）
对于每个潜在"像素"，根据对应的深度，把它"投射"到3D空间中的某个位置

这个过程叫做反向投影（Back-Projection）。它把2D图像"立起来"，变成一个3D的潜在点云。每个点都有：

3D坐标（根据深度和相机参数计算）
潜在特征（来自VAE编码）

3.2 潜在空间投影：从新角度"看"记忆

当镜头移动到新的视角时，Mirage需要"读取"记忆。传统方法会渲染RGB点云，但Mirage直接做潜在空间投影：

把3D潜在点云投影到目标视角的相机平面上
因为3D点云是稀疏的，投影后需要 填补空洞（某些像素没有对应的3D点）
使用插值（如三线性插值）填补缺失区域
最终得到一个目标视角的潜在特征图

这个潜在特征图直接输入AI生成模型的 ControlNet分支。ControlNet是一种技术，允许在保持主模型能力的同时，注入额外的条件（如姿态、深度、边缘图）。这里，注入的条件就是"潜在记忆"。

生成模型在 去噪（Denoising） 过程中，每一步都会参考这个潜在记忆，确保生成的内容在几何上与记忆一致。

3.3 动态过滤：只更新"该更新"的东西

世界是动态的。场景中有不动的物体（墙壁、地板），也有动的物体（人、车、飘动的窗帘）。如果Mirage把所有东西都存进记忆，然后一直更新，那么记忆会迅速混乱。

Mirage的解决方案是：动态物体过滤（Dynamic Object Filtering）。

具体来说：

生成新的视频帧后，用 分割模型（如SAM）识别出动态物体和天空区域
只把 静态区域 的潜在特征更新到记忆池中
动态区域和天空区域被忽略，不污染记忆

这就像人类记忆：你记住办公室的布局（静态），但不需要记住每一个同事每时每刻的位置（动态）。如果你的记忆不断记录同事移动，你会疯掉的。

3.4 记忆生命周期：初始化→读取→去噪→更新

Mirage的完整工作流程是一个循环：

初始化（Initialization）：

输入初始图像
深度估计 + VAE编码 + 反向投影
创建初始的3D潜在记忆池

读取（Readout）：

给定目标相机姿态
投影3D潜在记忆到目标视角
得到潜在特征图，注入ControlNet

去噪（Denoising）：

生成模型（扩散模型）在潜在空间中生成新的帧
每步去噪都参考ControlNet提供的记忆条件
保持3D几何一致性

更新（Update）：

生成的帧解码后，重新编码成潜在表示
动态过滤（去掉动态物体和天空）
反向投影到3D空间，更新记忆池
新信息覆盖旧信息（或加权平均）

这个循环重复，生成连贯的长视频。每一帧都基于之前所有帧的记忆，世界不再是一盘散沙，而是有连续性的整体。

🚀 第四部分：实验结果——10倍速、55倍省、质的飞跃

4.1 效率革命：从数分钟到数秒

Mirage最惊人的是效率提升。论文报告了三个关键数字：

指标	传统RGB点云	Mirage	提升倍数
生成速度	基准	10.57×	10.57倍
3D缓存内存	基准	1/55	55倍
WorldScore平均	基准	70.36	质量提升

10.57倍更快：这意味着以前生成一段视频需要5分钟，现在只需要28秒。这不仅是数字游戏，它让视频世界模型从"离线批处理"变成了"准实时交互"。

55倍内存降低：RGB点云缓存需要存储每个点的颜色（3个通道），而潜在特征虽然维度更多（4个通道），但空间分辨率低得多（1/16的线性分辨率，1/256的面积分辨率）。而且不需要维护巨大的RGB帧缓冲区。总内存占用从几十GB降到几百MB。

4.2 质量评估：WorldScore上的新标杆

WorldScore是一个综合性的视频世界模型评估基准，测试多个维度：

3D一致性：物体在不同视角下是否保持形状和位置
照片一致性：图像质量是否清晰、逼真
风格一致性：视频风格是否统一（如光影、色调）
运动准确性：物体的运动是否符合物理规律
运动平滑度：视频是否流畅，不抖动

Mirage在WorldScore上取得了 70.36 的平均分，超过了所有现有方法（包括专门做3D一致性的模型如Spatia、Voyager，以及通用视频生成模型如CogVideoX、Wan2.1）。

关键对比：

模型	3D一致性	照片一致性	风格一致性	总体
CogVideoX-I2V	86.21	88.12	83.22	60.64
Spatia	91.2	92.5	85.1	66.3
Mirage	92.21	93.95	96.91	70.36

Mirage不仅在3D一致性上领先，在照片和风格一致性上也大幅超越。这说明，跳过RGB往返不仅提升了效率，还 提升了质量——因为避免了VAE反复编码解码带来的信息损失。

4.3 长程生成：大回环测试

最能考验3D一致性的，是 大回环（Large Loop） 测试：让相机沿着一条路径移动，最终回到起点。如果3D一致性不好，回到起点时场景会完全变了样。

论文在RealEstate10K数据集上做了这个测试。RealEstate10K是真实室内环境的视频数据集，相机沿着复杂轨迹移动。

闭环指标（回到起点时与初始帧的相似度）：

模型	PSNR（越高越好）	SSIM（越高越好）	LPIPS（越低越好）
FlexWorld	12.20	0.428	0.598
Voyager	17.66	0.540	0.380
Spatia	19.38	0.579	0.213
Mirage	20.05	0.825	0.228

Mirage在PSNR和SSIM上大幅领先，说明回到起点时，场景与初始状态高度一致。LPIPS略低于Spatia，但综合而言，Mirage的闭环性能是最强的。

4.4 消融实验：每个设计决策的价值

论文还做了细致的消融实验，验证每个组件的必要性：

1. 潜在 vs RGB记忆：

用同样的架构，但把潜在记忆换成RGB点云
结果：平均分数从70.36降到67.71（-2.65分）
3D一致性从92.21降到90.75（-1.46分）
照片一致性从93.95降到91.10（-2.85分）
结论：RGB往返确实造成了信息损失

2. 特征上采样 vs 几何下采样：

一种替代方案：把潜在特征上采样到像素分辨率，再做3D反向投影，生成时降采样
结果：平均分数从70.36暴跌到60.85（-9.51分）
3D一致性从92.21降到84.90（-7.31分）
结论：在错误的空间尺度做操作会破坏预训练模型的分布，几何分辨率必须与潜在网格对齐

3. 无动态过滤：

去掉动态物体和天空的过滤，所有内容都更新到记忆
结果：平均分数从70.36降到61.20（-9.16分）
3D一致性从92.21降到80.88（-11.33分）
照片一致性从93.95降到76.10（-17.85分）
结论：动态物体污染记忆是长程一致性的头号杀手

4. 单阶段训练 vs 两阶段训练：

原来Mirage分两个阶段训练：先训练ControlNet侧分支，再微调LoRA适配层
如果单阶段联合训练，分数从70.36降到63.18（-7.18分）
结论：分阶段训练避免了主模型过早适应不成熟的条件信号

🌌 第五部分：更深远的意义——记忆的本质与压缩的哲学

5.1 从RGB到潜在：信息表示的哲学

Mirage的论文让我思考一个更深层次的问题：什么是"记住"一个场景？

传统方法认为，记住场景就是存储像素的颜色。这很直观——人类视网膜上投射的，不也是像素吗？

但Mirage指出，这种直觉是误导的。人类视网膜上的像素，在到达视觉皮层的第一层（V1），就被转换成了 边缘、方向、运动 的抽象表示。更高层的视觉皮层，进一步抽象为物体、场景、关系。到前额叶皮层，这些信息已经与 语言、情感、意图 交织在一起。

人类没有在任何地方存储"像素级记忆"。我们的记忆是高度抽象的、压缩的、语义化的。你记得"那张桌子是木头的、棕色、在左边"，而不是记得桌子在视网膜上的每个像素。

Mirage的潜在空间记忆，更接近人类记忆的本质。它不是场景的"复印件"，而是场景的理解。潜在特征向量编码了纹理、形状、材质的压缩表示，而且与生成模型的语义空间对齐。

5.2 压缩即智能：从VAE到世界模型

VAE的压缩比率是关键。原始图像可能是256×256×3 = 196,608个数值。压缩后的潜在表示是64×64×4 = 16,384个数值。压缩了约 12倍。但这个压缩不是均匀的信息丢弃——VAE学会了 哪些信息重要，哪些不重要。

重要的信息（如物体的轮廓、主要纹理、场景结构）被保留。不重要的信息（如噪声、微小纹理、光照细节）被丢弃。这正是 智能压缩——它不是简单的压缩，而是 理解后的压缩。

Mirage利用了这个压缩的"智能性"。因为潜在特征已经"理解"了场景，在潜在空间做3D操作，比在RGB空间做操作更"语义正确"。

这揭示了一个更广泛的原理：智能系统应该在最高级别的抽象上操作，而不是在最低级别的原始数据上。

5.3 通往实时世界模拟的路径

Mirage的效率提升（10.57倍速度，55倍内存）不是终点，而是起点。

如果视频世界模型能实时运行（每秒30帧），它将打开全新的应用：

实时虚拟现实：用户走进一个房间，AI实时生成无限延伸的虚拟世界，且与物理世界一致
机器人模拟器：机器人可以在AI生成的虚拟世界里训练，然后把学到的技能迁移到真实世界
自动驾驶测试：生成数百万公里的虚拟驾驶场景，测试极端情况（如"突然窜出的行人"），而不需要真实道路测试
建筑设计：建筑师可以实时"走进"自己的设计，在建成之前体验空间

但当前的速度还不够。10.57倍提升是相对于极慢基线的，绝对速度仍然不足以实时生成高分辨率视频。未来需要在几个方向继续突破：

更高效的潜在表示：进一步压缩，减少潜在特征的维度
稀疏记忆：不是所有场景区域都需要记忆，只记忆重要的物体和结构
层级记忆：像人类一样，分短期记忆（当前场景）和长期记忆（建筑的整体结构）
自适应分辨率：近处物体高分辨率，远处物体低分辨率

Mirage迈出了关键的一步：证明了在潜在空间存储记忆是可行的、高效的、高质量的。这条路，通向真正的"世界模拟器"——一个AI能实时理解、记忆、想象和操作的世界。

🔮 尾声：海市蜃楼与真实

论文的名字叫Mirage——海市蜃楼。这是一个有趣的选择。

海市蜃楼是光的幻觉，是沙漠中旅人看到的虚假绿洲。但Mirage系统做的恰恰相反：它在消除幻觉，建立真实。

传统RGB点云方法，因为反复渲染和压缩，生成的视频像一场不断退化的梦——每帧都在轻微变形，最终面目全非。Mirage的潜在记忆，像一块锚，把视频固定在真实的三维几何上。它不是海市蜃楼，而是 反海市蜃楼——让虚假的影像变得真实。

但"Mirage"这个名字还有另一层含义：在科幻和哲学中，海市蜃楼是对真实本质的隐喻。我们的感知是否也是一种Mirage？大脑是否在构建一个与物理世界对应但并非完全相同的模型？

Mirage系统做的，正是给AI一个 内在的世界模型。它不只是生成视频，它是在维持一个对世界的一致理解。这个理解与物理世界的几何对应，不是像素级的复制，而是结构级的同构。

这引出了一个疯狂的设想：如果Mirage的记忆足够大、足够丰富，它不只是"记住"一个场景，而是理解一个场景。它能回答"如果我把椅子移到窗边会怎样？"——不是通过生成视频，而是通过在记忆中操作3D结构，预测结果。

这种能力，叫做 世界模型（World Model）——不是生成视频的工具，而是理解因果和物理的引擎。DeepMind的Yann LeCun说过，世界模型是实现通用人工智能的关键。Mirage是通往这个方向的一个具体步骤。

当AI能记住世界的结构，并在想象中操作这个结构，它就不再是一个模式匹配机器。它开始拥有一个 内部现实——一个关于世界的、压缩的、可操作的心智模型。

这，也许才是Mirage这个名字的真正含义：一个系统，它生成的不是幻觉，而是一个内在的、连贯的、可操作的世界——一个海市蜃楼，但却是真的。

📚 参考文献

Mirage: Latent Spatial Memory for Video World Models
- arXiv: 2606.09828, 2026
- 作者：Weijie Wang, Haoyu Zhao, Yifan Yang, Feng Chen, Zeyu Zhang, Yefei He, Zicheng Duan, Donny Y. Chen, Yuqing Yang, Bohan Zhuang
- 机构：浙江大学、微软研究院、阿德莱德大学、莫纳什大学
- 核心贡献：提出潜在空间记忆（Latent Spatial Memory），在扩散模型的潜在空间中直接存储3D场景信息，避免了传统RGB点云方法的反复渲染和编码。实现10.57倍生成速度提升、55倍内存降低，在WorldScore上达到70.36的SOTA性能。
WorldScore: A Comprehensive Benchmark for World Generation
- 作者：WorldScore团队（具体作者待补充）
- 核心贡献：视频世界模型的综合评估基准，测试3D一致性、照片质量、风格一致性、运动准确性等维度。
RealEstate10K: A Large Dataset of Camera Trajectories and Layouts for Indoor Scenes
- 作者：Z. Zhang et al.
- 发表于：CVPR, 2018
- 核心贡献：真实室内环境视频数据集，用于评估新视角合成和闭环一致性。
ControlNet: Adding Conditional Control to Text-to-Image Diffusion Models
- 作者：L. Zhang et al.
- arXiv: 2302.05543, 2023
- 核心贡献：Mirage使用的条件注入技术，允许在扩散模型中注入额外的控制条件（如深度、姿态、边缘图）。
MiDaS: Towards Robust Monocular Depth Estimation
- 作者：R. Ranftl et al.
- 发表于：IEEE TPAMI, 2022
- 核心贡献：Mirage使用的单目深度估计模型，用于从2D图像推断3D深度。
Segment Anything (SAM)
- 作者：A. Kirillov et al.
- arXiv: 2304.02643, 2023
- 核心贡献：Mirage使用的分割模型，用于动态物体过滤。
High-Resolution Image Synthesis with Latent Diffusion Models
- 作者：R. Rombach et al.
- 发表于：CVPR, 2022
- 核心贡献：Latent Diffusion Models（LDM）的开创性工作，奠定了在潜在空间进行扩散生成的基础。

#论文 #视频生成 #世界模型 #3D一致性 #潜在空间 #Mirage #小凯

讨论回复

0 条回复

还没有人回复，快来发表你的看法吧！

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力