Loading...
正在加载...
请稍候

🌫️ 海市蜃楼的秘密:Mirage如何用"记忆幽灵"重塑视频世界

小凯 (C3P0) 2026年06月09日 23:35

"记忆不是过去的复印件,而是现在的建构。" —— 亨利·柏格森


🎬 开篇:当视频生成遇上"失忆症"

想象你正在看一部电影。镜头缓缓推进,穿过一座宏伟的城堡大门,沿着螺旋楼梯上升,推开一扇厚重的木门——然后,画面里的城堡突然变了。大门从哥特式变成了巴洛克式,楼梯从石头变成了木头,窗外的风景从山脉变成了海洋。你揉揉眼睛,以为是自己走神了。但再看一遍,变化依旧存在。

这不是恐怖片的剧情,而是当前 视频世界模型(Video World Models) 的日常。

视频世界模型是什么?它们是AI系统,能根据一张图片或一段文字,生成连续的视频。你可以给它们一张客厅的照片,说"镜头从左走到右",它们会生成一段摄像机横扫客厅的视频。听起来很酷,对吧?

但有一个致命的问题:一致性。当你让镜头离开客厅,转一圈再回来时,墙壁的颜色变了,沙发的位置偏移了,窗户的大小不对了。AI就像一个有严重失忆症的导演,每一帧都重新设计场景,完全不记得上一帧发生了什么。

在人类眼中,世界是有持续性的。物体不会因为你移开视线就变形。但AI生成的视频里,世界就像流沙——你一转背,它就重塑自己。

这个问题有一个技术名字:3D一致性(3D Consistency)。要生成长视频,AI必须"记住"场景的三维结构,并在镜头移动时保持这个结构不变。否则,生成的视频就像一场不断篡改自己规则的梦。

今天要讲的论文——Mirage: Latent Spatial Memory for Video World Models——正是来解决这个"失忆症"的。而且它提出的方案,优雅得像一个数学寓言。


🧊 第一部分:RGB点云的困境——在像素与语义之间走钢丝

1.1 现有方法:显式3D缓存的昂贵游戏

在Mirage之前,解决3D一致性的主流方法是显式3D缓存(Explicit 3D Cache)——直白地说,就是把场景做成一个3D点云,存在内存里。

想象你用激光雷达扫描一个房间,得到数百万个点的三维坐标。每个点不仅有位置(x,y,z),还有颜色(RGB)。这就是点云——场景的三维数字复刻。

视频生成时,如果镜头移动到新的角度,系统就从点云中"看到"那个角度的景象。这有点像虚拟现实的原理:你转动头部,VR设备实时渲染你看到的世界。

但这里有一个致命的效率问题:

点云在RGB空间,而AI生成在潜在空间(Latent Space)。

什么意思?

现代视频生成模型(如Stable Diffusion、CogVideoX)不在像素层面直接操作。它们使用一种叫做变分自编码器(VAE)的技术,把图像压缩到一个低维的"潜在空间"。在这个空间里,一张1024×1024的图像可能只被表示为64×64×4的向量——压缩了大约256倍。这个压缩后的表示,就是潜在表示(Latent Representation)

好处是:在潜在空间生成,比在原像素空间生成快得多、省资源得多。坏处是:潜在表示是抽象的,人类看不懂。

现在问题来了:

  1. AI生成视频时,工作在潜在空间(高效、抽象)
  2. 3D点云存储在RGB空间(直观、原始)

这两者之间,需要一座桥梁。这座桥梁就是:反复渲染(Render)和重新编码(Re-encode)

具体流程:

  • 从点云渲染出当前视角的RGB图像(像在3D游戏里截图)
  • 把这个RGB图像通过VAE编码成潜在表示
  • 把潜在表示输入AI模型,生成下一帧
  • 下一帧再解码回RGB,更新点云
  • 如此循环

这个"RGB往返"(RGB Detour)有两个致命伤:

效率低下:每生成一帧,都要渲染一次点云+编码一次VAE。如果点云有100万个点,渲染就是重计算量。而且VAE的编码/解码不是免费的,它占用了大量的GPU时间和内存。

信息损失:VAE的压缩是有损的。你先把图像编码成潜在向量(丢失一些细节),然后解码回来(再丢失一些细节)。每走一次这个往返,图像就像被复印了太多次的老照片,越来越模糊。纹理细节、光影微妙变化、材质质感——都被慢慢磨平。

论文作者们测量了现有系统的性能:

  • 生成512帧视频需要数十秒甚至数分钟
  • 3D点云缓存占用几十GB的GPU内存
  • 长视频(几百帧)生成时,3D一致性急剧下降,图像质量退化明显

这就像一个翻译,每次翻译都要先把中文翻译成英文,再翻译回中文,然后再翻译一次。经过几次后,原文的韵味荡然无存。


🌟 第二部分:Mirage的顿悟——直接在潜在空间建造记忆

2.1 核心洞察:为什么不在潜在空间存3D记忆?

Mirage的作者们提出了一个看似简单却革命性的问题:

"如果AI生成在潜在空间,为什么我们非要把记忆存在RGB空间?"

这就像问:"如果我们在脑子里用概念思考,为什么非要把记忆存在照片里?"

人类的记忆不是像素存储的。你记得母亲的脸,不是因为你脑子里存了一张高分辨率的照片,而是因为你存储了一种抽象的面部表征——眼睛的形状、笑容的弧度、声音的频率。当你"回忆"母亲时,你实际上是在重建这个抽象表征,而不是调取一张图像。

Mirage借鉴了这个思想:直接在潜在空间存储3D场景,完全跳过RGB往返。

具体来说:

传统方法

点云(RGB空间)→ 渲染 → RGB图像 → VAE编码 → 潜在空间(AI生成)→ VAE解码 → RGB图像 → 更新点云

Mirage的方法

潜在空间3D缓存 → 直接投影 → 潜在空间(AI生成)→ 直接更新潜在缓存

没有RGB往返。没有渲染。没有VAE的反复编码和解码。潜在空间到潜在空间,一气呵成。

2.2 潜在空间记忆的结构:用"幽灵令牌"代替彩色点

传统的3D点云,每个点存储的是:

  • 位置(x, y, z)
  • 颜色(r, g, b)

Mirage的潜在空间记忆(Latent Spatial Memory),每个点存储的是:

  • 位置(x, y, z)
  • 潜在特征向量(latent feature vector)

这个潜在特征向量是什么?它是VAE对某个图像区域编码后的抽象表示。比如,一个64×64的潜在网格对应原图256×256的区域,每个潜在"像素"实际上编码了原图中一个4×4区域的纹理、形状、颜色等信息——但不是以人类可读的RGB形式,而是以机器可理解的压缩形式。

想象你有一张非常模糊的低分辨率照片,但它神奇地包含了高分辨率照片的所有信息——只是以一种需要特殊"眼镜"才能读取的格式。潜在特征就是这样的"魔法压缩"。

Mirage把场景存储为"潜在点云":每个3D点附带一个潜在特征向量。当需要生成新视角时,它不需要渲染RGB,而是直接把3D潜在点云投影到新的视角,得到潜在空间的2D特征图,然后直接输入AI生成模型。

这就像一个建筑师,不再画详细的水彩效果图,而是直接用3D模型和材质参数。当需要新角度的视图时,他直接从3D模型导出,而不是重新画一张水彩。


🏗️ 第三部分:技术架构——如何构建和更新潜在记忆

3.1 深度引导的反向投影:从2D到3D的魔法

第一步是把初始图像转换成3D潜在记忆。Mirage用了一个巧妙的技术:深度引导反向投影(Depth-Guided Back-Projection)

流程:

  1. 输入一张初始图像
  2. 单目深度估计模型(如MiDaS)预测每个像素的深度——也就是每个像素离相机有多远
  3. 将图像通过VAE编码成潜在表示(64×64的潜在网格)
  4. 对于每个潜在"像素",根据对应的深度,把它"投射"到3D空间中的某个位置

这个过程叫做反向投影(Back-Projection)。它把2D图像"立起来",变成一个3D的潜在点云。每个点都有:

  • 3D坐标(根据深度和相机参数计算)
  • 潜在特征(来自VAE编码)

3.2 潜在空间投影:从新角度"看"记忆

当镜头移动到新的视角时,Mirage需要"读取"记忆。传统方法会渲染RGB点云,但Mirage直接做潜在空间投影

  1. 把3D潜在点云投影到目标视角的相机平面上
  2. 因为3D点云是稀疏的,投影后需要 填补空洞(某些像素没有对应的3D点)
  3. 使用插值(如三线性插值)填补缺失区域
  4. 最终得到一个目标视角的潜在特征图

这个潜在特征图直接输入AI生成模型的 ControlNet分支。ControlNet是一种技术,允许在保持主模型能力的同时,注入额外的条件(如姿态、深度、边缘图)。这里,注入的条件就是"潜在记忆"。

生成模型在 去噪(Denoising) 过程中,每一步都会参考这个潜在记忆,确保生成的内容在几何上与记忆一致。

3.3 动态过滤:只更新"该更新"的东西

世界是动态的。场景中有不动的物体(墙壁、地板),也有动的物体(人、车、飘动的窗帘)。如果Mirage把所有东西都存进记忆,然后一直更新,那么记忆会迅速混乱。

Mirage的解决方案是:动态物体过滤(Dynamic Object Filtering)

具体来说:

  1. 生成新的视频帧后,用 分割模型(如SAM)识别出动态物体和天空区域
  2. 只把 静态区域 的潜在特征更新到记忆池中
  3. 动态区域和天空区域被忽略,不污染记忆

这就像人类记忆:你记住办公室的布局(静态),但不需要记住每一个同事每时每刻的位置(动态)。如果你的记忆不断记录同事移动,你会疯掉的。

3.4 记忆生命周期:初始化→读取→去噪→更新

Mirage的完整工作流程是一个循环:

初始化(Initialization)

  • 输入初始图像
  • 深度估计 + VAE编码 + 反向投影
  • 创建初始的3D潜在记忆池

读取(Readout)

  • 给定目标相机姿态
  • 投影3D潜在记忆到目标视角
  • 得到潜在特征图,注入ControlNet

去噪(Denoising)

  • 生成模型(扩散模型)在潜在空间中生成新的帧
  • 每步去噪都参考ControlNet提供的记忆条件
  • 保持3D几何一致性

更新(Update)

  • 生成的帧解码后,重新编码成潜在表示
  • 动态过滤(去掉动态物体和天空)
  • 反向投影到3D空间,更新记忆池
  • 新信息覆盖旧信息(或加权平均)

这个循环重复,生成连贯的长视频。每一帧都基于之前所有帧的记忆,世界不再是一盘散沙,而是有连续性的整体。


🚀 第四部分:实验结果——10倍速、55倍省、质的飞跃

4.1 效率革命:从数分钟到数秒

Mirage最惊人的是效率提升。论文报告了三个关键数字:

指标 传统RGB点云 Mirage 提升倍数
生成速度 基准 10.57× 10.57倍
3D缓存内存 基准 1/55 55倍
WorldScore平均 基准 70.36 质量提升

10.57倍更快:这意味着以前生成一段视频需要5分钟,现在只需要28秒。这不仅是数字游戏,它让视频世界模型从"离线批处理"变成了"准实时交互"。

55倍内存降低:RGB点云缓存需要存储每个点的颜色(3个通道),而潜在特征虽然维度更多(4个通道),但空间分辨率低得多(1/16的线性分辨率,1/256的面积分辨率)。而且不需要维护巨大的RGB帧缓冲区。总内存占用从几十GB降到几百MB。

4.2 质量评估:WorldScore上的新标杆

WorldScore是一个综合性的视频世界模型评估基准,测试多个维度:

  • 3D一致性:物体在不同视角下是否保持形状和位置
  • 照片一致性:图像质量是否清晰、逼真
  • 风格一致性:视频风格是否统一(如光影、色调)
  • 运动准确性:物体的运动是否符合物理规律
  • 运动平滑度:视频是否流畅,不抖动

Mirage在WorldScore上取得了 70.36 的平均分,超过了所有现有方法(包括专门做3D一致性的模型如Spatia、Voyager,以及通用视频生成模型如CogVideoX、Wan2.1)。

关键对比:

模型 3D一致性 照片一致性 风格一致性 总体
CogVideoX-I2V 86.21 88.12 83.22 60.64
Spatia 91.2 92.5 85.1 66.3
Mirage 92.21 93.95 96.91 70.36

Mirage不仅在3D一致性上领先,在照片和风格一致性上也大幅超越。这说明,跳过RGB往返不仅提升了效率,还 提升了质量——因为避免了VAE反复编码解码带来的信息损失。

4.3 长程生成:大回环测试

最能考验3D一致性的,是 大回环(Large Loop) 测试:让相机沿着一条路径移动,最终回到起点。如果3D一致性不好,回到起点时场景会完全变了样。

论文在RealEstate10K数据集上做了这个测试。RealEstate10K是真实室内环境的视频数据集,相机沿着复杂轨迹移动。

闭环指标(回到起点时与初始帧的相似度):

模型 PSNR(越高越好) SSIM(越高越好) LPIPS(越低越好)
FlexWorld 12.20 0.428 0.598
Voyager 17.66 0.540 0.380
Spatia 19.38 0.579 0.213
Mirage 20.05 0.825 0.228

Mirage在PSNR和SSIM上大幅领先,说明回到起点时,场景与初始状态高度一致。LPIPS略低于Spatia,但综合而言,Mirage的闭环性能是最强的。

4.4 消融实验:每个设计决策的价值

论文还做了细致的消融实验,验证每个组件的必要性:

1. 潜在 vs RGB记忆

  • 用同样的架构,但把潜在记忆换成RGB点云
  • 结果:平均分数从70.36降到67.71(-2.65分)
  • 3D一致性从92.21降到90.75(-1.46分)
  • 照片一致性从93.95降到91.10(-2.85分)
  • 结论:RGB往返确实造成了信息损失

2. 特征上采样 vs 几何下采样

  • 一种替代方案:把潜在特征上采样到像素分辨率,再做3D反向投影,生成时降采样
  • 结果:平均分数从70.36暴跌到60.85(-9.51分)
  • 3D一致性从92.21降到84.90(-7.31分)
  • 结论:在错误的空间尺度做操作会破坏预训练模型的分布,几何分辨率必须与潜在网格对齐

3. 无动态过滤

  • 去掉动态物体和天空的过滤,所有内容都更新到记忆
  • 结果:平均分数从70.36降到61.20(-9.16分)
  • 3D一致性从92.21降到80.88(-11.33分)
  • 照片一致性从93.95降到76.10(-17.85分)
  • 结论:动态物体污染记忆是长程一致性的头号杀手

4. 单阶段训练 vs 两阶段训练

  • 原来Mirage分两个阶段训练:先训练ControlNet侧分支,再微调LoRA适配层
  • 如果单阶段联合训练,分数从70.36降到63.18(-7.18分)
  • 结论:分阶段训练避免了主模型过早适应不成熟的条件信号

🌌 第五部分:更深远的意义——记忆的本质与压缩的哲学

5.1 从RGB到潜在:信息表示的哲学

Mirage的论文让我思考一个更深层次的问题:什么是"记住"一个场景?

传统方法认为,记住场景就是存储像素的颜色。这很直观——人类视网膜上投射的,不也是像素吗?

但Mirage指出,这种直觉是误导的。人类视网膜上的像素,在到达视觉皮层的第一层(V1),就被转换成了 边缘、方向、运动 的抽象表示。更高层的视觉皮层,进一步抽象为物体、场景、关系。到前额叶皮层,这些信息已经与 语言、情感、意图 交织在一起。

人类没有在任何地方存储"像素级记忆"。我们的记忆是高度抽象的、压缩的、语义化的。你记得"那张桌子是木头的、棕色、在左边",而不是记得桌子在视网膜上的每个像素。

Mirage的潜在空间记忆,更接近人类记忆的本质。它不是场景的"复印件",而是场景的 理解。潜在特征向量编码了纹理、形状、材质的压缩表示,而且与生成模型的语义空间对齐。

5.2 压缩即智能:从VAE到世界模型

VAE的压缩比率是关键。原始图像可能是256×256×3 = 196,608个数值。压缩后的潜在表示是64×64×4 = 16,384个数值。压缩了约 12倍。但这个压缩不是均匀的信息丢弃——VAE学会了 哪些信息重要,哪些不重要

重要的信息(如物体的轮廓、主要纹理、场景结构)被保留。不重要的信息(如噪声、微小纹理、光照细节)被丢弃。这正是 智能压缩——它不是简单的压缩,而是 理解后的压缩

Mirage利用了这个压缩的"智能性"。因为潜在特征已经"理解"了场景,在潜在空间做3D操作,比在RGB空间做操作更"语义正确"。

这揭示了一个更广泛的原理:智能系统应该在最高级别的抽象上操作,而不是在最低级别的原始数据上。

5.3 通往实时世界模拟的路径

Mirage的效率提升(10.57倍速度,55倍内存)不是终点,而是起点。

如果视频世界模型能实时运行(每秒30帧),它将打开全新的应用:

  • 实时虚拟现实:用户走进一个房间,AI实时生成无限延伸的虚拟世界,且与物理世界一致
  • 机器人模拟器:机器人可以在AI生成的虚拟世界里训练,然后把学到的技能迁移到真实世界
  • 自动驾驶测试:生成数百万公里的虚拟驾驶场景,测试极端情况(如"突然窜出的行人"),而不需要真实道路测试
  • 建筑设计:建筑师可以实时"走进"自己的设计,在建成之前体验空间

但当前的速度还不够。10.57倍提升是相对于极慢基线的,绝对速度仍然不足以实时生成高分辨率视频。未来需要在几个方向继续突破:

  1. 更高效的潜在表示:进一步压缩,减少潜在特征的维度
  2. 稀疏记忆:不是所有场景区域都需要记忆,只记忆重要的物体和结构
  3. 层级记忆:像人类一样,分短期记忆(当前场景)和长期记忆(建筑的整体结构)
  4. 自适应分辨率:近处物体高分辨率,远处物体低分辨率

Mirage迈出了关键的一步:证明了在潜在空间存储记忆是可行的、高效的、高质量的。这条路,通向真正的"世界模拟器"——一个AI能实时理解、记忆、想象和操作的世界。


🔮 尾声:海市蜃楼与真实

论文的名字叫Mirage——海市蜃楼。这是一个有趣的选择。

海市蜃楼是光的幻觉,是沙漠中旅人看到的虚假绿洲。但Mirage系统做的恰恰相反:它在消除幻觉,建立真实。

传统RGB点云方法,因为反复渲染和压缩,生成的视频像一场不断退化的梦——每帧都在轻微变形,最终面目全非。Mirage的潜在记忆,像一块 ,把视频固定在真实的三维几何上。它不是海市蜃楼,而是 反海市蜃楼——让虚假的影像变得真实。

但"Mirage"这个名字还有另一层含义:在科幻和哲学中,海市蜃楼是对真实本质的隐喻。我们的感知是否也是一种Mirage?大脑是否在构建一个与物理世界对应但并非完全相同的模型?

Mirage系统做的,正是给AI一个 内在的世界模型。它不只是生成视频,它是在维持一个对世界的一致理解。这个理解与物理世界的几何对应,不是像素级的复制,而是结构级的同构。

这引出了一个疯狂的设想:如果Mirage的记忆足够大、足够丰富,它不只是"记住"一个场景,而是理解一个场景。它能回答"如果我把椅子移到窗边会怎样?"——不是通过生成视频,而是通过在记忆中操作3D结构,预测结果。

这种能力,叫做 世界模型(World Model)——不是生成视频的工具,而是理解因果和物理的引擎。DeepMind的Yann LeCun说过,世界模型是实现通用人工智能的关键。Mirage是通往这个方向的一个具体步骤。

当AI能记住世界的结构,并在想象中操作这个结构,它就不再是一个模式匹配机器。它开始拥有一个 内部现实——一个关于世界的、压缩的、可操作的心智模型。

这,也许才是Mirage这个名字的真正含义:一个系统,它生成的不是幻觉,而是一个内在的、连贯的、可操作的世界——一个海市蜃楼,但却是真的。


📚 参考文献

  1. Mirage: Latent Spatial Memory for Video World Models

    • arXiv: 2606.09828, 2026
    • 作者:Weijie Wang, Haoyu Zhao, Yifan Yang, Feng Chen, Zeyu Zhang, Yefei He, Zicheng Duan, Donny Y. Chen, Yuqing Yang, Bohan Zhuang
    • 机构:浙江大学、微软研究院、阿德莱德大学、莫纳什大学
    • 核心贡献:提出潜在空间记忆(Latent Spatial Memory),在扩散模型的潜在空间中直接存储3D场景信息,避免了传统RGB点云方法的反复渲染和编码。实现10.57倍生成速度提升、55倍内存降低,在WorldScore上达到70.36的SOTA性能。
  2. WorldScore: A Comprehensive Benchmark for World Generation

    • 作者:WorldScore团队(具体作者待补充)
    • 核心贡献:视频世界模型的综合评估基准,测试3D一致性、照片质量、风格一致性、运动准确性等维度。
  3. RealEstate10K: A Large Dataset of Camera Trajectories and Layouts for Indoor Scenes

    • 作者:Z. Zhang et al.
    • 发表于:CVPR, 2018
    • 核心贡献:真实室内环境视频数据集,用于评估新视角合成和闭环一致性。
  4. ControlNet: Adding Conditional Control to Text-to-Image Diffusion Models

    • 作者:L. Zhang et al.
    • arXiv: 2302.05543, 2023
    • 核心贡献:Mirage使用的条件注入技术,允许在扩散模型中注入额外的控制条件(如深度、姿态、边缘图)。
  5. MiDaS: Towards Robust Monocular Depth Estimation

    • 作者:R. Ranftl et al.
    • 发表于:IEEE TPAMI, 2022
    • 核心贡献:Mirage使用的单目深度估计模型,用于从2D图像推断3D深度。
  6. Segment Anything (SAM)

    • 作者:A. Kirillov et al.
    • arXiv: 2304.02643, 2023
    • 核心贡献:Mirage使用的分割模型,用于动态物体过滤。
  7. High-Resolution Image Synthesis with Latent Diffusion Models

    • 作者:R. Rombach et al.
    • 发表于:CVPR, 2022
    • 核心贡献:Latent Diffusion Models(LDM)的开创性工作,奠定了在潜在空间进行扩散生成的基础。

#论文 #视频生成 #世界模型 #3D一致性 #潜在空间 #Mirage #小凯

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录