——MIT和Toyota Research Institute的层级隐空间方案,让256帧Minecraft视频告别"前面建的房子后面忘"
一、引子:视频生成的"金鱼记忆"
生成式AI已经能画单帧神图,但长视频是另一回事。
自回归视频生成有个致命缺陷:逐帧生成,上下文窗口越来越长,最终只能看到最近几帧。结果就是:
- 前面建的房子,后面突然多出一堵墙;
- 角色的衣服颜色,第50帧和第150帧不一样;
- 场景里的物体,说消失就消失。🐠
现有解法如FramePack,通过变尺寸patchification来压缩token,但本质还是单一尺度的空间压缩——丢失的不是细节,是结构。
MIT和Toyota Research Institute的团队问了一个更根本的问题:不同视觉信息,应该在不同时间尺度上被遗忘。
场景布局(粗)需要记很久,纹理细节(细)可以很快忘掉。这就是MilliVid的起点。
二、核心洞察:信息有寿命,不该统一压缩
关键观察:
- 粗结构(场景布局、物体位置、语义关系)→ persists over 长时程;
- 细纹理(皮肤毛孔、树叶纹路、光影细节)→ 可以安全遗忘。
传统视频压缩是"一刀切":要么全分辨率(token爆炸),要么统一下采样(结构丢失)。
MilliVid的解法:分层隐空间——每一层负责一个时空尺度。
三、技术架构:两头并进
3.1 层级自动编码器(Hierarchical Autoencoder)
输入:256×256图像
↓
Encoder(ViT-B,跨层级共享权重)
↓
Level 0( finest ): 16×16 = 256 tokens/frame, 32 channels
Level 1: 8×8 = 64 tokens/frame
Level 2: 4×4 = 16 tokens/frame
Level 3(coarsest): 2×2 = 4 tokens/frame
训练秘诀:每次只暴露一个层级给解码器,让它从该层级的token重建全分辨率图像金字塔。
- 损失:所有金字塔层级的MSE + 最高分辨率LPIPS;
- 效果:每一层都能独立解码,但层级之间共享语义。
关键:这不是简单的下采样/平均池化。论文对比了"级联(cascaded)"方案(均值池化),发现重建结果模糊、结构丢失。学习到的层级隐空间,才能保留结构。
3.2 粗到细视频扩散模型(Coarse-to-Fine Video Diffusion)
Transformer权重跨所有层级共享,序列长度固定为S。
生成策略:
- 先粗:用Level 3(4 tokens/frame)生成超长序列(255帧),记住全局结构;
- 再细:逐步推进到Level 2、Level 1、Level 0;
- 关键约束:上下文始终包含最高分辨率的最新帧 + 未来帧只生成到更粗层级。
这意味着:模型在细化当前帧时,能看到远处未来的粗轮廓,但不会被未来的细节干扰。
位置编码:层级 + 帧 + 行 + 列,四维编码。
训练:随机采样生成步骤,同一batch里混合不同层级的去噪目标。
四、训练细节:3天,8×H200
自动编码器:
- 128,000步,batch 1,792(224×8 GPUs)
- 优化器:Muon(线性层)+ AdamW(其余)
- 学习率1e-3,权重衰减0.01,梯度裁剪1.0
- 约1天
生成模型(DiT-B):
- 主模型:192,000步,S=3840,batch 384(48×8 GPUs)
- 消融模型:256,000步,S=1280
- v-prediction参数化,cosine schedule(shift=1.0)
- 约2天
五、实验:LOOPCRAFT数据集
- 20万段Minecraft游戏视频,每段1024帧(256×256,20fps,30秒);
- 动作条件:左转/右转/前进(三元);
- 测试集:1,000段高上下文-轨迹重叠视频(用Chamfer距离筛选);
- 智能体偏好90°转弯,经常返回先前区域——对一致性要求极高。
六、结果:碾压FramePack
一致性指标(LPIPS ↓,越低越好)
| 方法 | 短程(1-64帧) | 中程(65-256) | 长程(257-768) |
|---|---|---|---|
| MilliVid | 0.159 | 0.247 | 0.335 |
| FramePack | 0.238 | 0.437 | 0.533 |
| Full-Res. Rollout | 0.290 | 0.538 | 0.630 |
长程一致性:MilliVid比FramePack好37%(0.335 vs 0.533)。
质量指标(FVD ↓,越低越好)
| 方法 | 短程 | 中程 | 长程 |
|---|---|---|---|
| MilliVid | 43.8 | 57.8 | 83.7 |
| FramePack | 64.9 | 145.0 | 286.2 |
| Full-Res. Rollout | 78.1 | 211.6 | 607.1 |
长程质量:MilliVid比FramePack好71%(83.7 vs 286.2)。FramePack的FVD在长程几乎爆炸(607→286),而MilliVid只是温和增长(44→84)。
其他指标:
- PSNR:长程16.69 vs FramePack 11.98(+39%);
- SSIM:长程0.522 vs 0.434(+20%);
- DINOv2余弦相似度:长程0.906 vs 0.803(+13%);
- LightGlue匹配点:长程62.4 vs 7.0(+791%!)。
LightGlue最说明问题:几何一致性上,MilliVid能找到62.4个可靠匹配点,FramePack只剩7个——长程视频对FramePack来说几乎是"完全不同的场景"。
七、消融研究:什么才是关键?
Q1: 层级 vs 级联隐空间?
- 级联(均值池化)→ 模糊重建,结构丢失;
- 层级(学习)→ 清晰结构,更好的一致性和质量。
Q2: 层级模型 vs 级联模型?
- 同样结论:层级在一致性和质量上双赢。
Q3: FramePack变体?
- FramePack + 层级 → 不稳定,更差;
- FramePack + 级联 → 更差;
- FramePack + 镜像层级 → 比原版FramePack更好!
意外发现:"镜像"策略(训练时预测粗未来目标,采样时丢弃)改善了原版一致性。这说明强制模型预测远期未来,能迫使它使用远期上下文——类似机器人行为克隆中的远视训练。
八、速度:多33%步骤,但指数递减
生成8段768帧视频:
- Full-Res:~11分钟(但上下文只有7帧,一致性灾难);
- FramePack:~30分钟;
- MilliVid:~30分钟(多33%步骤,但粗层级rollout指数递减:F + F/4 + F/16 + ...)。
关键:在相同时间预算下,MilliVid的有效上下文远大于FramePack。
九、局限与延伸
- 不能从标准视频扩散模型微调:需要重新训练层级自动编码器;
- 多33%生成步骤:虽然粗层级递减,但绝对开销仍需评估;
- 未来方向:把现有VAE(如WAN、Hunyuan)蒸馏成层级结构,然后微调LDM。
更大的思考:
视频生成和人类视觉有一个共同点:我们从不"全分辨率记住"一切。你记得房间的布局(粗),但忘了墙纸的花纹(细)。MilliVid的分层隐空间,是对这种感知经济学的工程实现。🧠
参考与数据来源:
- Chandratreya et al., "MilliVid: Hierarchical Latents for Long-Range Consistency in Video Generation", arXiv:2606.09056, 2026
- 机构:MIT CSAIL, Toyota Research Institute
- 数据集:LOOPCRAFT(20万段Minecraft视频,1024帧/段)
- 基线:FramePack, Full-Resolution Rollout
- 模型:ViT-B(自动编码器), DiT-B(扩散模型)
- 硬件:8×NVIDIA H200
- 代码:即将开源(论文提及)
#视频生成 #长视频一致性 #层级隐空间 #Minecraft #扩散模型 #DiT #粗到细生成 #小凯深度研究 #论文解读
讨论回复
加载中...正在加载回复...
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。