论文: RhymeFlow: Training-Free Acceleration for Video Generation with Asynchronous Denoising Flow Scheduling
作者: Chensheng Dai, Shengjun Zhang et al. (清华大学)
链接: https://arxiv.org/abs/2606.06309
标签: #视频生成 #扩散模型 #DiT #AI加速 #AIGC
一、一个被忽视的加速维度
视频扩散模型(DiT-based)的推理成本是个什么概念?
拿当前主流的模型来说,生成一段5秒、720p的视频,需要跑50步去噪 × 16帧 = 800次完整的前向传播。每一次前向传播都要计算3D注意力——空间注意力 × 时间注意力,复杂度是 \(O(T \times H \times W)\) 的平方级。
现有加速方法都在做什么?
- 稀疏注意力:把3D attention变稀疏,减少单步计算量
- KV Cache:缓存历史计算的key/value,避免重复算
- 模型蒸馏:把50步 teacher 蒸馏成4步 student
这些方法有个共同点:它们都在「单步内部」做优化,但完全遵循一个默认假设——
视频中的每一帧,都必须经历完整的、密集的去噪过程。
清华这篇论文问了一个很基础的问题:这个假设真的成立吗?
二、视频的「惰性」:相邻帧在偷懒
答案是:不成立。视频有强烈的时空冗余。
想象你在看一段视频:一个行人从画面左侧走到右侧。第3帧和第4帧之间,变化可能只有几个像素的位移。第10帧和第11帧,背景建筑几乎没变。
论文的核心观察是:
当关键帧(语义/结构发生显著变化的帧)被锚定后,其他非关键帧的中间状态往往遵循更可预测的轨迹。
换句话说,如果你知道第0帧(全噪声)和第8帧(关键帧,行人走到中间),那么第4帧的状态大概率可以用某种插值估计出来——它不需要真的跑完整的8步去噪。
这是视频和图像本质不同的地方:
| 图像生成 | 视频生成 | |
|---|---|---|
| 冗余来源 | 空间局部性(patch之间) | 时空连续性(帧之间) |
| 加速思路 | 稀疏attention、patch合并 | 跳过非关键帧的去噪步骤 |
| 核心约束 | 每个pixel都需要精确去噪 | 相邻帧共享大量信息 |
论文把这个现象称为 「去噪流的异步性」——不同帧的去噪轨迹本就不必同步。
三、RhymeFlow的三板斧
基于以上观察,作者提出了RhymeFlow框架。它做三件核心的事:
3.1 内容感知关键帧选择
不是均匀采样(比如每4帧取一个关键帧),而是基于隐空间语义相似度自动识别关键帧。
具体做法:
- 预热阶段:所有帧先跑前几步去噪(比如5步),进入一个「半去噪」状态
- 语义分析:在隐空间(latent space)计算相邻帧之间的特征相似度
- 关键帧识别:相似度低于阈值的帧被标记为关键帧——这些地方发生了显著的语义或结构变化
这样的好处是自适应的:动作快的片段关键帧密集,静态场景关键帧稀疏。
3.2 渐进式异步调度
关键帧和非关键帧走不同的「去噪节奏」:
- 关键帧:保留完整的全步去噪(比如50步),确保结构 integrity
- 非关键帧:根据噪声水平动态跳过步骤
跳步策略遵循噪声水平的规律:
- 高噪声阶段(去噪早期):非关键帧少跳步——这时候帧间差异大,需要更多信息
- 低噪声阶段(去噪后期):非关键帧多跳步——这时候帧间趋于一致,可以大量跳过
论文把这个称为 「渐进式跳步」,类似自适应学习率:前期保守,后期激进。
3.3 轻量隐轨迹投影模块
跳过步骤带来一个问题:非关键帧的中间状态缺失了。
DiT的3D注意力需要完整的时序序列来保持帧间一致性。如果第4帧直接跳到第8帧,中间第6帧的状态是空的,注意力机制会「看到断层」。
作者的解决方案是一个轻量的隐轨迹投影模块:
- 对于被跳过步骤的非关键帧,不重新计算去噪,而是基于相邻关键帧的隐状态做解析估计
- 具体来说,利用已知的关键帧隐状态,通过线性/低阶插值补全被跳过的中间状态
- 这个模块的计算量极小(相对于完整去噪步骤可以忽略),但能保证3D注意力看到的是一个完整且时序一致的序列表示
关键洞察:3D注意力需要的不是「精确的去噪中间状态」,而是「合理的时序一致性」。投影模块提供的近似状态足以满足注意力的需求。
四、为什么是「Training-Free」?
这可能是论文最实用的地方。
现有的视频加速方法,尤其是基于蒸馏的(比如Snap Video、Lumina-T2X),需要:
- 用原模型生成大量训练数据
- 训练一个小模型或few-step模型
- 调参、对齐、loss设计……
RhymeFlow完全不需要这些。它直接作用于已经训练好的模型:
- 不需要访问训练数据
- 不需要重新训练或微调
- 不需要修改模型架构
- 不需要设计新的loss function
它只是一个推理时的调度策略——决定哪些帧在哪一步该跳过、哪些该保留。
这意味着:
你今天在用的任何DiT-based视频模型(OpenAI Sora、Stable Video Diffusion、CogVideo等),理论上都可以直接套RhymeFlow加速。
落地成本几乎为零。
五、实验结果:50%+提速,质量不降
论文在多个DiT-based视频生成模型上做了验证:
5.1 定量结果
- 推理速度提升:最高超过50%(取决于关键帧比例和视频内容复杂度)
- 视觉质量:FID、FVD等指标与基线持平或略优
- 关键帧比例:通常在20%-40%之间,即60%-80%的帧可以部分跳步
5.2 和现有方法的兼容性
论文强调了一个重要点:RhymeFlow和现有加速方法是正交且可叠加的。
- 已经用了稀疏注意力?RhymeFlow可以在稀疏注意力的基础上再跳过非关键帧的步骤
- 已经用了KV Cache?RhymeFlow减少的步数会进一步降低KV Cache的占用
- 已经蒸馏了4步模型?RhymeFlow可以让这4步中的非关键帧只跑2步
这种正交性意味着加速收益可以相乘,而不是互相替代。
5.3 消融实验
作者验证了三个核心组件的必要性:
- 去掉关键帧自适应选择 → 固定间隔采样关键帧:质量下降明显,因为静态场景浪费了计算,动态场景关键帧不足
- 去掉渐进式跳步 → 均匀跳步:高噪声阶段跳步过多导致早期结构错误
- 去掉隐轨迹投影 → 直接跳过不补全:3D注意力看到断层,时序一致性崩坏
六、局限与思考
6.1 适用边界
RhymeFlow的加速效果高度依赖视频的时空冗余度:
- 高冗余场景(慢动作、静态背景):加速比高,50%+很容易达到
- 低冗余场景(快速剪辑、剧烈镜头运动):关键帧比例升高,加速比下降
- 极端情况:每一帧都完全不同的视频(比如快速切换的MV),RhymeFlow退化为基线
6.2 和模型架构的耦合
论文目前只在DiT-based模型上验证。对于非Transformer架构(如U-Net-based的Stable Diffusion Video),3D注意力的机制不同,隐轨迹投影模块需要重新设计。
6.3 关键帧选择的计算开销
预热阶段需要所有帧先跑5步去噪来识别关键帧,这带来了额外的 upfront 成本。对于极短的视频(<2秒),这个 overhead 可能抵消加速收益。
七、一个更大的图景
RhymeFlow的意义不止于「又一个加速方法」。它揭示了一个被忽视的优化维度:
扩散模型的去噪过程,不必是「帧级别同步」的。
这打开了几个有趣的方向:
- 更激进的异步策略:不仅跳过步骤,还可以让不同帧跑不同的去噪 schedule(比如关键帧用DDIM,非关键帧用Euler)
- 自适应分辨率:关键帧用高分辨率生成,非关键帧用低分辨率然后上采样
- 层级化关键帧:一级关键帧(场景切换)、二级关键帧(动作变化)、三级关键帧(细节变化),每一级有不同的去噪预算
论文把这个框架命名为「RhymeFlow」,暗喻视频生成像诗歌的韵律一样——有节奏、有起伏,不是均匀的流水账。
八、实用建议
如果你在做视频生成相关的工程,可以立即尝试:
- 关键帧比例:从30%开始调,观察质量和速度的 trade-off
- 跳步 schedule:高噪声阶段(前20% steps)少跳,低噪声阶段(后50% steps)多跳
- 投影模块:先用线性插值,如果质量不够再上轻量MLP
- 和现有方法叠加:不要替换已有的稀疏注意力或KV Cache,RhymeFlow是在它们之上的额外优化层
参考文献
- Dai, C., et al. (2026). RhymeFlow: Training-Free Acceleration for Video Generation with Asynchronous Denoising Flow Scheduling. arXiv:2606.06309.
- Peebles, B., & Xie, S. (2023). Scalable Diffusion Models with Transformers. ICCV 2023.
- Blattmann, A., et al. (2023). Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large Datasets. arXiv preprint.
- Yang, Z., et al. (2024). CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer. arXiv preprint.
核心结论:RhymeFlow从视频的时空连续性出发,首次提出「异步去噪流调度」范式——关键帧密集去噪保质量,非关键帧动态跳步省计算,通过轻量隐轨迹投影保持时序一致性。无需训练、无需改模型、与现有加速方法正交可叠加,最高提速50%+。这是视频扩散加速领域一个被长期忽视的维度终于被打开。
#论文解读 #视频生成 #扩散模型 #DiT #AI加速 #AIGC #小凯
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。