论文: SeaCache: Spectral-Evolution-Aware Cache for Accelerating Diffusion Models
作者: Jiwoo Chung, Sangeek Hyun, MinKyu Lee, Byeongju Han, Geonho Cha, Dongyoon Wee, Youngjun Hong, Jae-Pil Heo
会议: CVPR 2026 Oral, Best Paper Finalist
机构: Sungkyunkwan University + NAVER Cloud
论文: arXiv:2602.18993
代码: github.com/jiwoogit/SeaCache
一、问题的本质:扩散模型为什么慢?
扩散模型(Diffusion Model)的生成过程,本质上是一场"精雕细琢"——从一个充满噪声的随机图像开始,经过几十到上百步的迭代去噪,最终"雕刻"出一张清晰的图片。
每一步都要让模型跑一遍完整的前向传播(Forward Pass)。FLUX.1-dev 跑50步,意味着50次完整的Transformer推理。一张图生成下来,高端GPU也要等20秒。
这不是算法的问题,是物理的问题。
扩散模型的去噪是序列化的——第t步的输入依赖于第t-1步的输出,没法并行。你就算有100块GPU,也得一块一块地算。
所以加速方向就两个:
- 减少步数:从50步压到10步、5步、甚至1步(distillation)
- 减少每步的计算量:量化、剪枝、高效注意力、缓存复用
SeaCache走的是第二条路,而且走得极其优雅。
二、现有缓存策略的盲区:把所有频率当成一回事
在讲SeaCache之前,先理解**缓存(Caching)**是什么。
核心观察:扩散模型相邻timestep的输出高度相似。第10步和第11步的中间特征,差别可能很小。如果第10步的特征已经算出来了,第11步能不能直接复用?
这就是缓存的基本逻辑。DeepCache、TeaCache、TaylorSeer都是这么干的。
但这里有一个被所有人忽视的盲区。
扩散模型的去噪过程存在频谱演化(Spectral Evolution):
- 早期timestep:主要建立低频结构——物体的轮廓、大致布局
- 后期timestep:主要细化高频细节——纹理、边缘、文字、毛发
如果你把一张扩散过程中的图片做傅里叶变换,你会清楚地看到:早期只有低频分量,后期高频分量逐渐"长出来"。
现有缓存策略的问题在于:它们用原始特征空间的距离来判断"这一步和下一步差多少",但这个距离同时包含了内容变化和噪声变化。
打个比方:你想判断两幅照片"内容差异"有多大,但照片里还叠加了大量随机噪点。你的距离度量被噪声干扰了,导致缓存决策不是跟着"内容"走,而是跟着"噪声"走。
结果就是:该缓存的时候没缓存(浪费算力),不该缓存的时候缓存了(质量下降)。
三、SeaCache的核心洞见:在频域做决策
SeaCache的做法极其简洁,以至于你会想"这么简单,为什么之前没人做?"
核心操作:在测量特征距离之前,先把特征过一个频谱演化感知滤波器(SEA Filter)。
3.1 SEA Filter的理论基础
作者从最优线性去噪器推导频率响应:
对于一个加噪图像 \(x_t = a_t x_0 + b_t \epsilon\),最优线性滤波器在频率域的响应是:
其中 \(S_x(f)\) 是干净图像的功率谱。假设自然图像的功率谱服从幂律分布 \(S_x(f) \propto f^{-\gamma}\),就能得到timestep-dependent的滤波器。
这个公式告诉你:
- 早期timestep(\(a_t\) 小,\(b_t\) 大):滤波器只让低频通过,高频被抑制
- 后期timestep(\(a_t\) 大,\(b_t\) 小):滤波器逐渐开放高频
这正好对应了扩散模型的频谱演化!
3.2 实际操作:FFT → 滤波 → iFFT
SEA Filter的实现非常轻量:
- 对特征做FFT(快速傅里叶变换)
- 乘以一个timestep-dependent的频率响应 \(G_t^{norm}(f)\)
- 做iFFT(逆变换)回到空间域
注意这里用了归一化的频率响应 \(G_t^{norm}\)——确保不同timestep的能量可比,否则早期和后期的距离没法直接比较。
开销有多低? FFT/iFFT在GPU上高度优化,论文报告SEA Filter只占总推理时间的**~0.2%**。
3.3 动态缓存调度
有了滤波后的特征,缓存决策就简单了:
filtered_distance = ||P(G_t, I_t) - P(G_{t+1}, I_{t+1})|| / ||P(G_{t+1}, I_{t+1})||
accumulate filtered_distance over timesteps
if accumulated_distance > threshold:
refresh_cache() # 重新计算
else:
reuse_cached_features() # 复用缓存
这个距离度量关注的是"内容差异"而非"噪声差异",因此缓存决策更精准。
四、实验结果:数据说话
4.1 FLUX.1-dev(文生图)
| 方法 | 延迟(s) | 加速比 | PSNR↑ | LPIPS↓ | SSIM↑ |
|---|---|---|---|---|---|
| Original (50步) | 20.9 | 1.0x | — | — | — |
| Vanilla 25步 | 10.5 | 2.0x | 15.55 | 0.409 | 0.668 |
| TeaCache (δ=0.3) | 11.4 | 1.83x | 20.76 | 0.211 | 0.810 |
| SeaCache (δ=0.3) | 9.4 | 2.22x | 26.29 | 0.106 | 0.893 |
| TeaCache (δ=0.6) | 7.1 | 2.94x | 17.21 | 0.348 | 0.714 |
| SeaCache (δ=0.6) | 6.4 | 3.27x | 21.33 | 0.226 | 0.798 |
关键发现:
- 在相近的加速比下(~1.8-2.2x),SeaCache的PSNR比TeaCache高5.5 dB,LPIPS低一倍
- 在更激进的设置(~3x加速),SeaCache仍然保持质量优势
- 同样的缓存预算,SeaCache能跑出更好的图
4.2 HunyuanVideo(文生视频)
| 方法 | 延迟(s) | PSNR↑ | LPIPS↓ | SSIM↑ |
|---|---|---|---|---|
| Original (50步) | 182.6 | — | — | — |
| TeaCache (δ=0.12) | 98.5 | 23.40 | 0.133 | 0.805 |
| SeaCache (δ=0.19) | 90.8 | 32.39 | 0.047 | 0.932 |
| TeaCache (δ=0.2) | 64.4 | 20.42 | 0.172 | 0.734 |
| SeaCache (δ=0.35) | 58.1 | 26.46 | 0.133 | 0.857 |
视频场景下差距更夸张:在相近延迟下,SeaCache的PSNR比TeaCache高出近9 dB。
4.3 Wan2.1 1.3B(文生视频)
类似的结果:SeaCache在相同刷新率下,PSNR和SSIM全面领先,LPIPS更低。
4.4 定性对比
论文展示了几个典型案例:
- 提示词包含文字(如"menu showing QUANTUM"):TeaCache在30%刷新率下完全丢失了"QUANTUM"文字,SeaCache保留完整
- 复杂场景(如"grocery store refrigerator"):SeaCache保留了货架上的细节和层次,基线方法出现模糊和错位
- 视频时序一致性:SeaCache在缓存压力下保持了更好的帧间一致性
五、为什么SeaCache能赢?三个关键设计
5.1 频域分离信号与噪声
这是最根本的。扩散模型的特征空间里,内容和噪声是混在一起的。SEA Filter在频域把它们分开——低频是"信号"(内容),高频是"噪声"(随机残差)。
缓存决策只基于信号差异,不被噪声波动带偏。
5.2 Timestep-aware的滤波器
\(G_t(f)\) 是timestep-dependent的,意味着:
- 早期步骤:滤波器严格低通,只关注大尺度的结构变化
- 后期步骤:滤波器逐渐开放高频,关注细节变化
这与扩散模型本身的"从粗到细"生成节奏天然对齐。
5.3 零额外超参数
SeaCache没有额外的超参数(没有保留比例、没有系数需要调)。你只需要:
- 装上SEA Filter
- 跑推理
论文说"No additional parameters to tune. You just apply the scheduler-based SEA filtering and run inference."
这对于工程落地极其友好。
六、技术局限与未来方向
6.1 与蒸馏方法的兼容性
论文主要测试了标准多步采样(50步)。对于已经蒸馏过的少步模型(如FLUX.1-schnell的4步、SDXL-Turbo的1-4步),相邻timestep的差异更大,缓存收益会降低。
但SeaCache的频域思想仍然适用——只是需要调整滤波器设计。
6.2 与并行加速的正交性
SeaCache是"串行方向"的加速(减少每步计算),与"并行方向"的加速(如DistriFusion的多GPU并行)是正交的。两者可以叠加。
论文提到兼容高效注意力、块级缓存等orthogonal技术。
6.3 自适应滤波器的扩展
当前SEA Filter基于理论推导(线性MMSE + 幂律谱),没有针对特定数据集训练。未来可以考虑:
- 用少量数据微调滤波器响应
- 针对不同内容类型(人脸、风景、文字)设计不同的滤波器
- 结合可学习模块做端到端优化
6.4 对视频模型的特别价值
视频生成是当前最吃算力的场景。HunyuanVideo和Wan2.1的实验表明,SeaCache在视频上的提升比图片更显著。这可能是因为视频的时间维度放大了"内容vs噪声"分离的收益。
七、为什么这篇论文值得Best Paper Finalist?
CVPR的Best Paper评选标准通常看三个维度:
1. 问题的重要性
扩散模型推理加速是工业界最紧迫的问题之一。Midjourney、DALL-E、Runway每天都在为推理成本头疼。SeaCache直接解决这个问题。
2. 技术的优雅性
方法极其简洁——一个FFT、一个滤波器、一个iFFT。没有复杂的训练流程,没有额外的模型参数,没有需要调的超参数。"Simple but effective"的最高境界。
3. 理论的扎实性
不是拍脑袋的经验设计,而是从最优线性去噪器的理论推导出发,结合自然图像的功率谱先验。SEA Filter有明确的理论支撑。
4. 实验的充分性
覆盖了图片(FLUX)、视频(HunyuanVideo、Wan2.1),覆盖了不同的缓存策略(静态/动态),与当前SOTA(TeaCache、TaylorSeer、DeepCache)全面对比,定性定量都扎实。
5. 工程的可落地性
零训练、即插即用、0.2%额外开销、兼容现有框架。这不是一篇"只能发论文"的工作,而是可以明天就合进ComfyUI的实用工具。
八、对业界的启示
8.1 对AIGC产品团队
如果你的产品用扩散模型做图像/视频生成,SeaCache可以直接集成:
- 无需重新训练模型
- 无需改模型架构
- 推理速度提升2-3倍,质量损失极小
特别是视频生成团队,SeaCache在HunyuanVideo上的提升比图片更显著。
8.2 对研究者
SeaCache揭示了一个更深层的方法论:
在扩散模型的分析中,频域视角比时域视角更有信息量。
扩散模型的去噪过程天然具有频谱结构——这不是一个需要"发现"的现象,而是模型设计时就内建的属性。把缓存、调度、分析都搬到频域做,可能会打开一系列新的研究方向。
8.3 对硬件厂商
FFT/iFFT是GPU/NPU上高度优化的操作。SeaCache的计算模式(特征→FFT→逐点乘→iFFT)非常适合硬件加速。专用AI芯片可以考虑把SEA Filter做成固定函数单元。
九、总结
SeaCache的价值可以用一句话概括:
它让缓存策略从"跟着噪声走"变成了"跟着内容走",而实现这一点的代价几乎为零。
在扩散模型加速这个已经被研究得相当透彻的领域,SeaCache找到了一个被所有人忽视的维度——频谱。它不是靠更复杂的网络、更多的训练数据、更精巧的架构获胜,而是靠一个更本质的观察:
扩散模型生成图像的过程,就是一个频谱从低频到高频逐步"展开"的过程。缓存决策应该尊重这个节奏。
这个洞见看似简单,但只有当作者把频域分析和缓存策略联系起来时,才展现出了它的威力。
参考文献
- Chung, J., Hyun, S., Lee, M., Han, B., Cha, G., Wee, D., Hong, Y., & Heo, J.P. SeaCache: Spectral-Evolution-Aware Cache for Accelerating Diffusion Models. CVPR (2026). arXiv:2602.18993
- Ma, X., Fang, G., & Wang, X. DeepCache: Accelerating Diffusion Models for Free. CVPR (2024).
- Chen, X., et al. TeaCache: Temporal Feature Cache for Video Diffusion Model. NeurIPS (2025).
- Liu, Y., et al. TaylorSeer: Taylor-Series Expansion for Accelerating Diffusion Models. NeurIPS (2025).
- Kahatapitiya, K., et al. AdaCache: Adaptive Cache for Video Diffusion Models. CVPR (2024).
#论文解读 #CVPR2026 #扩散模型 #AIGC #模型加速 #视频生成 #FLUX #缓存策略 #频谱分析
讨论回复
加载中...正在加载回复...
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。