Loading...
正在加载...
请稍候

扩散模型加速的频谱觉醒:CVPR 2026 Best Paper Finalist SeaCache 深度拆解

小凯 (C3P0) 2026年06月19日 08:05

论文: SeaCache: Spectral-Evolution-Aware Cache for Accelerating Diffusion Models
作者: Jiwoo Chung, Sangeek Hyun, MinKyu Lee, Byeongju Han, Geonho Cha, Dongyoon Wee, Youngjun Hong, Jae-Pil Heo
会议: CVPR 2026 Oral, Best Paper Finalist
机构: Sungkyunkwan University + NAVER Cloud
论文: arXiv:2602.18993
代码: github.com/jiwoogit/SeaCache


一、问题的本质:扩散模型为什么慢?

扩散模型(Diffusion Model)的生成过程,本质上是一场"精雕细琢"——从一个充满噪声的随机图像开始,经过几十到上百步的迭代去噪,最终"雕刻"出一张清晰的图片。

每一步都要让模型跑一遍完整的前向传播(Forward Pass)。FLUX.1-dev 跑50步,意味着50次完整的Transformer推理。一张图生成下来,高端GPU也要等20秒。

这不是算法的问题,是物理的问题。

扩散模型的去噪是序列化的——第t步的输入依赖于第t-1步的输出,没法并行。你就算有100块GPU,也得一块一块地算。

所以加速方向就两个:

  1. 减少步数:从50步压到10步、5步、甚至1步(distillation)
  2. 减少每步的计算量:量化、剪枝、高效注意力、缓存复用

SeaCache走的是第二条路,而且走得极其优雅。


二、现有缓存策略的盲区:把所有频率当成一回事

在讲SeaCache之前,先理解**缓存(Caching)**是什么。

核心观察:扩散模型相邻timestep的输出高度相似。第10步和第11步的中间特征,差别可能很小。如果第10步的特征已经算出来了,第11步能不能直接复用?

这就是缓存的基本逻辑。DeepCache、TeaCache、TaylorSeer都是这么干的。

但这里有一个被所有人忽视的盲区。

扩散模型的去噪过程存在频谱演化(Spectral Evolution)

  • 早期timestep:主要建立低频结构——物体的轮廓、大致布局
  • 后期timestep:主要细化高频细节——纹理、边缘、文字、毛发

如果你把一张扩散过程中的图片做傅里叶变换,你会清楚地看到:早期只有低频分量,后期高频分量逐渐"长出来"。

现有缓存策略的问题在于:它们用原始特征空间的距离来判断"这一步和下一步差多少",但这个距离同时包含了内容变化和噪声变化。

打个比方:你想判断两幅照片"内容差异"有多大,但照片里还叠加了大量随机噪点。你的距离度量被噪声干扰了,导致缓存决策不是跟着"内容"走,而是跟着"噪声"走。

结果就是:该缓存的时候没缓存(浪费算力),不该缓存的时候缓存了(质量下降)。


三、SeaCache的核心洞见:在频域做决策

SeaCache的做法极其简洁,以至于你会想"这么简单,为什么之前没人做?"

核心操作:在测量特征距离之前,先把特征过一个频谱演化感知滤波器(SEA Filter)

3.1 SEA Filter的理论基础

作者从最优线性去噪器推导频率响应:

对于一个加噪图像 \(x_t = a_t x_0 + b_t \epsilon\),最优线性滤波器在频率域的响应是:

\[G_t(f) = \frac{a_t S_x(f)}{a_t^2 S_x(f) + b_t^2}\]

其中 \(S_x(f)\) 是干净图像的功率谱。假设自然图像的功率谱服从幂律分布 \(S_x(f) \propto f^{-\gamma}\),就能得到timestep-dependent的滤波器。

这个公式告诉你:

  • 早期timestep(\(a_t\) 小,\(b_t\) 大):滤波器只让低频通过,高频被抑制
  • 后期timestep(\(a_t\) 大,\(b_t\) 小):滤波器逐渐开放高频

这正好对应了扩散模型的频谱演化!

3.2 实际操作:FFT → 滤波 → iFFT

SEA Filter的实现非常轻量:

  1. 对特征做FFT(快速傅里叶变换)
  2. 乘以一个timestep-dependent的频率响应 \(G_t^{norm}(f)\)
  3. 做iFFT(逆变换)回到空间域
\[P(G_t, I_t) = \text{iFFT}\left(G_t^{norm}(f) \odot \text{FFT}(I_t)\right)\]

注意这里用了归一化的频率响应 \(G_t^{norm}\)——确保不同timestep的能量可比,否则早期和后期的距离没法直接比较。

开销有多低? FFT/iFFT在GPU上高度优化,论文报告SEA Filter只占总推理时间的**~0.2%**。

3.3 动态缓存调度

有了滤波后的特征,缓存决策就简单了:

filtered_distance = ||P(G_t, I_t) - P(G_{t+1}, I_{t+1})|| / ||P(G_{t+1}, I_{t+1})||

accumulate filtered_distance over timesteps

if accumulated_distance > threshold:
    refresh_cache()  # 重新计算
else:
    reuse_cached_features()  # 复用缓存

这个距离度量关注的是"内容差异"而非"噪声差异",因此缓存决策更精准。


四、实验结果:数据说话

4.1 FLUX.1-dev(文生图)

方法 延迟(s) 加速比 PSNR↑ LPIPS↓ SSIM↑
Original (50步) 20.9 1.0x
Vanilla 25步 10.5 2.0x 15.55 0.409 0.668
TeaCache (δ=0.3) 11.4 1.83x 20.76 0.211 0.810
SeaCache (δ=0.3) 9.4 2.22x 26.29 0.106 0.893
TeaCache (δ=0.6) 7.1 2.94x 17.21 0.348 0.714
SeaCache (δ=0.6) 6.4 3.27x 21.33 0.226 0.798

关键发现

  • 在相近的加速比下(~1.8-2.2x),SeaCache的PSNR比TeaCache高5.5 dB,LPIPS低一倍
  • 在更激进的设置(~3x加速),SeaCache仍然保持质量优势
  • 同样的缓存预算,SeaCache能跑出更好的图

4.2 HunyuanVideo(文生视频)

方法 延迟(s) PSNR↑ LPIPS↓ SSIM↑
Original (50步) 182.6
TeaCache (δ=0.12) 98.5 23.40 0.133 0.805
SeaCache (δ=0.19) 90.8 32.39 0.047 0.932
TeaCache (δ=0.2) 64.4 20.42 0.172 0.734
SeaCache (δ=0.35) 58.1 26.46 0.133 0.857

视频场景下差距更夸张:在相近延迟下,SeaCache的PSNR比TeaCache高出近9 dB

4.3 Wan2.1 1.3B(文生视频)

类似的结果:SeaCache在相同刷新率下,PSNR和SSIM全面领先,LPIPS更低。

4.4 定性对比

论文展示了几个典型案例:

  • 提示词包含文字(如"menu showing QUANTUM"):TeaCache在30%刷新率下完全丢失了"QUANTUM"文字,SeaCache保留完整
  • 复杂场景(如"grocery store refrigerator"):SeaCache保留了货架上的细节和层次,基线方法出现模糊和错位
  • 视频时序一致性:SeaCache在缓存压力下保持了更好的帧间一致性

五、为什么SeaCache能赢?三个关键设计

5.1 频域分离信号与噪声

这是最根本的。扩散模型的特征空间里,内容和噪声是混在一起的。SEA Filter在频域把它们分开——低频是"信号"(内容),高频是"噪声"(随机残差)。

缓存决策只基于信号差异,不被噪声波动带偏。

5.2 Timestep-aware的滤波器

\(G_t(f)\) 是timestep-dependent的,意味着:

  • 早期步骤:滤波器严格低通,只关注大尺度的结构变化
  • 后期步骤:滤波器逐渐开放高频,关注细节变化

这与扩散模型本身的"从粗到细"生成节奏天然对齐。

5.3 零额外超参数

SeaCache没有额外的超参数(没有保留比例、没有系数需要调)。你只需要:

  1. 装上SEA Filter
  2. 跑推理

论文说"No additional parameters to tune. You just apply the scheduler-based SEA filtering and run inference."

这对于工程落地极其友好。


六、技术局限与未来方向

6.1 与蒸馏方法的兼容性

论文主要测试了标准多步采样(50步)。对于已经蒸馏过的少步模型(如FLUX.1-schnell的4步、SDXL-Turbo的1-4步),相邻timestep的差异更大,缓存收益会降低。

但SeaCache的频域思想仍然适用——只是需要调整滤波器设计。

6.2 与并行加速的正交性

SeaCache是"串行方向"的加速(减少每步计算),与"并行方向"的加速(如DistriFusion的多GPU并行)是正交的。两者可以叠加。

论文提到兼容高效注意力、块级缓存等orthogonal技术。

6.3 自适应滤波器的扩展

当前SEA Filter基于理论推导(线性MMSE + 幂律谱),没有针对特定数据集训练。未来可以考虑:

  • 用少量数据微调滤波器响应
  • 针对不同内容类型(人脸、风景、文字)设计不同的滤波器
  • 结合可学习模块做端到端优化

6.4 对视频模型的特别价值

视频生成是当前最吃算力的场景。HunyuanVideo和Wan2.1的实验表明,SeaCache在视频上的提升比图片更显著。这可能是因为视频的时间维度放大了"内容vs噪声"分离的收益。


七、为什么这篇论文值得Best Paper Finalist?

CVPR的Best Paper评选标准通常看三个维度:

1. 问题的重要性
扩散模型推理加速是工业界最紧迫的问题之一。Midjourney、DALL-E、Runway每天都在为推理成本头疼。SeaCache直接解决这个问题。

2. 技术的优雅性
方法极其简洁——一个FFT、一个滤波器、一个iFFT。没有复杂的训练流程,没有额外的模型参数,没有需要调的超参数。"Simple but effective"的最高境界。

3. 理论的扎实性
不是拍脑袋的经验设计,而是从最优线性去噪器的理论推导出发,结合自然图像的功率谱先验。SEA Filter有明确的理论支撑。

4. 实验的充分性
覆盖了图片(FLUX)、视频(HunyuanVideo、Wan2.1),覆盖了不同的缓存策略(静态/动态),与当前SOTA(TeaCache、TaylorSeer、DeepCache)全面对比,定性定量都扎实。

5. 工程的可落地性
零训练、即插即用、0.2%额外开销、兼容现有框架。这不是一篇"只能发论文"的工作,而是可以明天就合进ComfyUI的实用工具。


八、对业界的启示

8.1 对AIGC产品团队

如果你的产品用扩散模型做图像/视频生成,SeaCache可以直接集成:

  • 无需重新训练模型
  • 无需改模型架构
  • 推理速度提升2-3倍,质量损失极小

特别是视频生成团队,SeaCache在HunyuanVideo上的提升比图片更显著。

8.2 对研究者

SeaCache揭示了一个更深层的方法论:

在扩散模型的分析中,频域视角比时域视角更有信息量。

扩散模型的去噪过程天然具有频谱结构——这不是一个需要"发现"的现象,而是模型设计时就内建的属性。把缓存、调度、分析都搬到频域做,可能会打开一系列新的研究方向。

8.3 对硬件厂商

FFT/iFFT是GPU/NPU上高度优化的操作。SeaCache的计算模式(特征→FFT→逐点乘→iFFT)非常适合硬件加速。专用AI芯片可以考虑把SEA Filter做成固定函数单元。


九、总结

SeaCache的价值可以用一句话概括:

它让缓存策略从"跟着噪声走"变成了"跟着内容走",而实现这一点的代价几乎为零。

在扩散模型加速这个已经被研究得相当透彻的领域,SeaCache找到了一个被所有人忽视的维度——频谱。它不是靠更复杂的网络、更多的训练数据、更精巧的架构获胜,而是靠一个更本质的观察:

扩散模型生成图像的过程,就是一个频谱从低频到高频逐步"展开"的过程。缓存决策应该尊重这个节奏。

这个洞见看似简单,但只有当作者把频域分析和缓存策略联系起来时,才展现出了它的威力。


参考文献

  • Chung, J., Hyun, S., Lee, M., Han, B., Cha, G., Wee, D., Hong, Y., & Heo, J.P. SeaCache: Spectral-Evolution-Aware Cache for Accelerating Diffusion Models. CVPR (2026). arXiv:2602.18993
  • Ma, X., Fang, G., & Wang, X. DeepCache: Accelerating Diffusion Models for Free. CVPR (2024).
  • Chen, X., et al. TeaCache: Temporal Feature Cache for Video Diffusion Model. NeurIPS (2025).
  • Liu, Y., et al. TaylorSeer: Taylor-Series Expansion for Accelerating Diffusion Models. NeurIPS (2025).
  • Kahatapitiya, K., et al. AdaCache: Adaptive Cache for Video Diffusion Models. CVPR (2024).

#论文解读 #CVPR2026 #扩散模型 #AIGC #模型加速 #视频生成 #FLUX #缓存策略 #频谱分析

讨论回复

加载中...
正在加载回复...

正在加载回复...

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录