MilliVid：视频生成的"分层记忆"——粗骨架、细血肉，长视频终于不再"失忆"

——MIT和Toyota Research Institute的层级隐空间方案，让256帧Minecraft视频告别"前面建的房子后面忘"

一、引子：视频生成的"金鱼记忆"

生成式AI已经能画单帧神图，但长视频是另一回事。

自回归视频生成有个致命缺陷：逐帧生成，上下文窗口越来越长，最终只能看到最近几帧。结果就是：

前面建的房子，后面突然多出一堵墙；
角色的衣服颜色，第50帧和第150帧不一样；
场景里的物体，说消失就消失。🐠

现有解法如FramePack，通过变尺寸patchification来压缩token，但本质还是单一尺度的空间压缩——丢失的不是细节，是结构。

MIT和Toyota Research Institute的团队问了一个更根本的问题：不同视觉信息，应该在不同时间尺度上被遗忘。

场景布局（粗）需要记很久，纹理细节（细）可以很快忘掉。这就是MilliVid的起点。

---

二、核心洞察：信息有寿命，不该统一压缩

关键观察：

粗结构（场景布局、物体位置、语义关系）→ persists over 长时程；
细纹理（皮肤毛孔、树叶纹路、光影细节）→ 可以安全遗忘。

传统视频压缩是"一刀切"：要么全分辨率（token爆炸），要么统一下采样（结构丢失）。

MilliVid的解法：分层隐空间——每一层负责一个时空尺度。

---

三、技术架构：两头并进

3.1 层级自动编码器（Hierarchical Autoencoder）

输入：256×256图像
        ↓
Encoder（ViT-B，跨层级共享权重）
        ↓
Level 0（ finest ）: 16×16 = 256 tokens/frame, 32 channels
Level 1: 8×8 = 64 tokens/frame
Level 2: 4×4 = 16 tokens/frame  
Level 3（coarsest）: 2×2 = 4 tokens/frame

训练秘诀：每次只暴露一个层级给解码器，让它从该层级的token重建全分辨率图像金字塔。

损失：所有金字塔层级的MSE + 最高分辨率LPIPS；
效果：每一层都能独立解码，但层级之间共享语义。

关键：这不是简单的下采样/平均池化。论文对比了"级联（cascaded）"方案（均值池化），发现重建结果模糊、结构丢失。学习到的层级隐空间，才能保留结构。

3.2 粗到细视频扩散模型（Coarse-to-Fine Video Diffusion）

Transformer权重跨所有层级共享，序列长度固定为S。

生成策略： 1. 先粗：用Level 3（4 tokens/frame）生成超长序列（255帧），记住全局结构； 2. 再细：逐步推进到Level 2、Level 1、Level 0； 3. 关键约束：上下文始终包含最高分辨率的最新帧 + 未来帧只生成到更粗层级。

这意味着：模型在细化当前帧时，能看到远处未来的粗轮廓，但不会被未来的细节干扰。

位置编码：层级 + 帧 + 行 + 列，四维编码。

训练：随机采样生成步骤，同一batch里混合不同层级的去噪目标。

---

四、训练细节：3天，8×H200

自动编码器：

128,000步，batch 1,792（224×8 GPUs）
优化器：Muon（线性层）+ AdamW（其余）
学习率1e-3，权重衰减0.01，梯度裁剪1.0
约1天

生成模型（DiT-B）：

主模型：192,000步，S=3840，batch 384（48×8 GPUs）
消融模型：256,000步，S=1280
v-prediction参数化，cosine schedule（shift=1.0）
约2天

---

五、实验：LOOPCRAFT数据集

20万段Minecraft游戏视频，每段1024帧（256×256，20fps，30秒）；
动作条件：左转/右转/前进（三元）；
测试集：1,000段高上下文-轨迹重叠视频（用Chamfer距离筛选）；
智能体偏好90°转弯，经常返回先前区域——对一致性要求极高。

---

六、结果：碾压FramePack

一致性指标（LPIPS ↓，越低越好）

方法	短程(1-64帧)	中程(65-256)	长程(257-768)
MilliVid	0.159	0.247	0.335
FramePack	0.238	0.437	0.533
Full-Res. Rollout	0.290	0.538	0.630

长程一致性：MilliVid比FramePack好37%（0.335 vs 0.533）。

质量指标（FVD ↓，越低越好）

方法	短程	中程	长程
MilliVid	43.8	57.8	83.7
FramePack	64.9	145.0	286.2
Full-Res. Rollout	78.1	211.6	607.1

长程质量：MilliVid比FramePack好71%（83.7 vs 286.2）。FramePack的FVD在长程几乎爆炸（607→286），而MilliVid只是温和增长（44→84）。

其他指标：

PSNR：长程16.69 vs FramePack 11.98（+39%）；
SSIM：长程0.522 vs 0.434（+20%）；
DINOv2余弦相似度：长程0.906 vs 0.803（+13%）；
LightGlue匹配点：长程62.4 vs 7.0（+791%！）。

LightGlue最说明问题：几何一致性上，MilliVid能找到62.4个可靠匹配点，FramePack只剩7个——长程视频对FramePack来说几乎是"完全不同的场景"。

---

七、消融研究：什么才是关键？

Q1: 层级 vs 级联隐空间？

级联（均值池化）→ 模糊重建，结构丢失；
层级（学习）→ 清晰结构，更好的一致性和质量。

Q2: 层级模型 vs 级联模型？

同样结论：层级在一致性和质量上双赢。

Q3: FramePack变体？

FramePack + 层级 → 不稳定，更差；
FramePack + 级联 → 更差；
FramePack + 镜像层级 → 比原版FramePack更好！

意外发现："镜像"策略（训练时预测粗未来目标，采样时丢弃）改善了原版一致性。这说明强制模型预测远期未来，能迫使它使用远期上下文——类似机器人行为克隆中的远视训练。

---

八、速度：多33%步骤，但指数递减

生成8段768帧视频：

Full-Res：~11分钟（但上下文只有7帧，一致性灾难）；
FramePack：~30分钟；
MilliVid：~30分钟（多33%步骤，但粗层级rollout指数递减：F + F/4 + F/16 + ...）。

关键：在相同时间预算下，MilliVid的有效上下文远大于FramePack。

---

九、局限与延伸

1. 不能从标准视频扩散模型微调：需要重新训练层级自动编码器； 2. 多33%生成步骤：虽然粗层级递减，但绝对开销仍需评估； 3. 未来方向：把现有VAE（如WAN、Hunyuan）蒸馏成层级结构，然后微调LDM。

更大的思考：

视频生成和人类视觉有一个共同点：我们从不"全分辨率记住"一切。你记得房间的布局（粗），但忘了墙纸的花纹（细）。MilliVid的分层隐空间，是对这种感知经济学的工程实现。🧠

---

参考与数据来源：

Chandratreya et al., "MilliVid: Hierarchical Latents for Long-Range Consistency in Video Generation", arXiv:2606.09056, 2026
机构：MIT CSAIL, Toyota Research Institute
数据集：LOOPCRAFT（20万段Minecraft视频，1024帧/段）
基线：FramePack, Full-Resolution Rollout
模型：ViT-B（自动编码器）, DiT-B（扩散模型）
硬件：8×NVIDIA H200
代码：即将开源（论文提及）

#视频生成 #长视频一致性 #层级隐空间 #Minecraft #扩散模型 #DiT #粗到细生成 #小凯深度研究 #论文解读

MilliVid：视频生成的"分层记忆"——粗骨架、细血肉，长视频终于不再"失忆"

🌟 智谱 GLM-5 已上线