MIGA:不重新训练模型,而是重新设计模型工作的环境——ICML 2026 免训练无限帧视频生成
Alibaba 研究团队(AMAP)的 MIGA 拿到了 ICML 2026。这篇论文解决的是一个非常具体但极其重要的工程问题:怎么让现成的短视频扩散模型生成长视频,而且不用重新训练、不占更多内存。
答案是两条路径并行:先对齐训练和推理的噪声世界,再让模型自己反省、同时睁眼看远方。
---
问题根源:训练时只见过"整齐的队伍",推理时却面对"杂牌军"
现成视频扩散模型(VideoCrafter2、Wan2.1 等)在训练时有一个默契约定:输入模型的所有帧 latent 处于同一个噪声水平。比如一批 16 帧,全部在 timestep τ=25 的状态。模型学会的是"把噪声水平 25 的这批帧变成更干净"。
但 FIFO-Diffusion 这类免训练无限帧生成框架为了自回归推进,维护了一个噪声队列 Q。队列里第一帧几乎干净(τ≈0),最后一帧还是纯噪声(τ=T)。每次模型去噪时,用滑动窗口从队列里取 f_0 帧处理——这 f_0 帧的噪声水平跨度巨大。
模型训练时没见过这种"跨度如此大的输入"。这就是训练-推理不匹配(training-inference gap)的本质。论文 Figure 2(a) 画得很清楚:FIFO-Diffusion 的队列是一条对角线,噪声从 0 平滑增长到 T。
后果:内容漂移、视觉伪影、主体走着走着变形了。
---
路径一:两阶段对齐(TTA)——把杂牌军整编成整齐队伍
MIGA 的核心直觉:能不能在模型真正处理之前,先把队列里的噪声跨度压小?
Stage 1:Zigzag 迭代去噪——把对角线改成锯齿波
FIFO-Diffusion 是每一帧 latent 都对应一个不同噪声水平。MIGA 改成每 L_zig 帧才换一次噪声水平。
具体做法:队列不是 {τ_1, τ_2, τ_3...} 这种逐帧递增,而是 {τ_e, τ_e, τ_e, τ_e, τ_{e+1}, τ_{e+1}, τ_{e+1}, τ_{e+1}...}——每 4 帧才升一级噪声。
效果:模型每次看到的 f_0 帧窗口内,噪声水平的变化范围被压缩了。论文把这叫做"proactively narrow the noise span"。
消融实验(Table 4)显示 L_zig=4 是 sweet spot。再大收益饱和,再小噪声跨度压不住。
Stage 2:统一噪声水平去噪——等所有人到齐再一起冲锋
Stage 1 进行了 n 轮迭代后,队列里积累了 n*L_zig 帧,但这些帧并不在同一噪声水平——它们只是每 4 帧一组内部一致。
Stage 2 的关键操作:等所有帧都降到同一个噪声水平 τ_{e-1} 后,再统一继续去噪。 这时队列变成了 {τ_{e-1}, τ_{e-1}, τ_{e-1}...},模型处理的每一批输入都是统一噪声水平——和训练条件完全一致。
注意:如果跳过 Stage 1 直接做 Stage 2(即直接对全部噪声 latent 统一去噪),性能暴跌。因为 Stage 1 的自回归过程在帧之间建立了隐式信息传递,这是 Stage 2 能成功的前提。
消融实验(Table 6)量化了每一步的价值:baseline 95.02 → +Stage 1 96.78 → +Stage 2 97.05。
---
路径二:双重一致性增强(DCE)——自己反省 + 睁眼看远方
TTA 解决了"输入质量"问题,但长视频的核心挑战还有长程一致性。模型滑动窗口只能看到相邻帧,容易"近视眼"。
Self-Reflection:在高噪声阶段就预判最终一致性
现有方法(如 ScalingNoise)用外部模型(DINO)评估一致性,需要把 latent 解码成像素再跑评估,计算开销巨大。而且它们要么每步都搜索,要么按固定 schedule 搜索,不灵活。
MIGA 的洞察来自一个意外发现:早期高噪声 latent 的一致性评分波动模式,和最终干净 latent 高度相关。
论文 Figure 3(c,d) 做了相关性分析:即使噪声水平高达 40(最大 50),C_score 曲线和干净 latent 的相关系数依然很高。这意味着不需要等视频生成完毕再评估,在高噪声阶段就能预判哪里会崩。
具体做法: 1. 定义队列尾部的判断节点 f_judg 2. 用相邻帧的 cosine similarity 计算一致性评分 C_score(完全在 latent 空间操作,无需解码) 3. 当相邻 chunk 的 C_score 下降超过阈值 δ_adju=0.01 时,触发修正 4. 修正方式:生成 n_samp 个候选后续序列,用前面已验证的帧做引导,选一致性最高的替换原序列
这就是 Test-Time Scaling(TTS)在视频生成里的落地。阈值越小,搜索越频繁,性能越好但计算越多。δ=0.01 是平衡点和甜蜜点。
消融实验(Figure 5)展示了 R_corr(修正率)和 R_succ(修正成功率)随阈值变化的趋势:阈值过低时,无效搜索增多,成功率下降。
Long-Range Frame Guidance:让滑动窗口看到远方
滑动窗口每次只处理 f_0 帧,模型看不到远处的帧,导致长程依赖断裂。
MIGA 的解法极简:从队列前面(已生成较久、噪声较低的帧)稀疏采样 m_guid 帧,塞进当前窗口一起处理。
具体而言,当滑动窗口处理位置 l 时,输入不再是 [z_l, ..., z_{l+f_0-1}],而是把前面 m_guid 个远距离帧拼进来:[z_1,...,z_m_guid, z_l,...,z_{l+f_0-m_guid-1}]。
这相当于给模型装上了"望远镜"——虽然主要注意力还在当前帧,但远处的帧提供了全局上下文。消融实验(Table 5)显示 m_guid=6 最优,0 的时候 O.S. 只有 95.80,加上 6 个引导帧跳到 96.87。
---
实验:不仅是数字,还有 1000+ 帧的生成能力
论文在 VideoCrafter2 和 Wan2.1-1.3B 上都做了实验。
VBench(VideoCrafter2-based, 128 帧):
- FIFO-Diffusion: S.C. 92.92, B.C. 95.01, O.S. 95.02
- MIGA: S.C. 97.66, B.C. 96.99, O.S. 97.82
- 主体一致性提升 +4.7%,背景一致性 +2.0%
- Wan2.1-based MIGA 在 TNA=2/3/4 的设定下全面领先
- 特别值得注意的是:Wan2.1 是写实风格模型,维持一致性比 VideoCrafter2 的动画风格更难,但 MIGA 依然有效
内存方面:继承 FIFO-Diffusion 的固定内存占用优势,不随视频长度增长。
---
为什么这事重要
视频生成领域正在分化为两条路线:
1. 重训练路线:SkyReels-V2、MAGI-1 等从头训练长视频模型,需要海量数据和算力 2. 免训练路线:在现有短视频模型上搭框架,用工程手段扩展长度
MIGA 属于后者,但它的性能已经接近甚至超过一些训练型方法(附录 B.4 的讨论)。在资源受限的实际场景中(普通用户、实时应用、边缘设备),免训练 + 固定内存的组合极具吸引力。
更深层的意义在于:MIGA 把 LLM 领域最近火热的 Test-Time Scaling 思路成功迁移到了扩散模型视频生成。Self-Reflection 本质上是"生成时多试几次,选最好的"——这和 o1、R1 的推理时扩展是同一枚硬币的两面。
---
局限
论文自己在附录 C 里提到:
- 目前只验证了文本条件控制,更复杂的条件(如动作、相机运动)有待扩展
- 1000+ 帧的生成在极端长序列上仍可能出现缓慢退化
- 多 Prompt 控制的叙事连贯性还有提升空间
一句话总结
MIGA 用 Zigzag 平滑噪声跨度、用两阶段对齐训练和推理条件、再用 Self-Reflection 在高噪声阶段预判一致性异常、最后用远距离帧引导解决滑动窗口的近视问题——四条措施叠加,让现成的短视频模型稳定生成无限长视频,而且不占更多内存。
论文没有重新训练模型,它重新设计了模型工作时的"环境"。
---
参考论文:
- Feng et al. (2026). Enhancing Train-Free Infinite-Frame Generation for Consistent Long Videos. arXiv:2605.18233. ICML 2026.
🌟 智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
🎁 领取 2000万 Tokens