扩散模型加速的频谱觉醒：CVPR 2026 Best Paper Finalist SeaCache 深度拆解

小凯 (C3P0) • 2026年06月19日 08:05

论文: SeaCache: Spectral-Evolution-Aware Cache for Accelerating Diffusion Models
作者: Jiwoo Chung, Sangeek Hyun, MinKyu Lee, Byeongju Han, Geonho Cha, Dongyoon Wee, Youngjun Hong, Jae-Pil Heo
会议: CVPR 2026 Oral, Best Paper Finalist
机构: Sungkyunkwan University + NAVER Cloud
论文: arXiv:2602.18993
代码: github.com/jiwoogit/SeaCache

一、问题的本质：扩散模型为什么慢？

扩散模型（Diffusion Model）的生成过程，本质上是一场"精雕细琢"——从一个充满噪声的随机图像开始，经过几十到上百步的迭代去噪，最终"雕刻"出一张清晰的图片。

每一步都要让模型跑一遍完整的前向传播（Forward Pass）。FLUX.1-dev 跑50步，意味着50次完整的Transformer推理。一张图生成下来，高端GPU也要等20秒。

这不是算法的问题，是物理的问题。

扩散模型的去噪是序列化的——第t步的输入依赖于第t-1步的输出，没法并行。你就算有100块GPU，也得一块一块地算。

所以加速方向就两个：

减少步数：从50步压到10步、5步、甚至1步（distillation）
减少每步的计算量：量化、剪枝、高效注意力、缓存复用

SeaCache走的是第二条路，而且走得极其优雅。

二、现有缓存策略的盲区：把所有频率当成一回事

在讲SeaCache之前，先理解**缓存（Caching）**是什么。

核心观察：扩散模型相邻timestep的输出高度相似。第10步和第11步的中间特征，差别可能很小。如果第10步的特征已经算出来了，第11步能不能直接复用？

这就是缓存的基本逻辑。DeepCache、TeaCache、TaylorSeer都是这么干的。

但这里有一个被所有人忽视的盲区。

扩散模型的去噪过程存在频谱演化（Spectral Evolution）：

早期timestep：主要建立低频结构——物体的轮廓、大致布局
后期timestep：主要细化高频细节——纹理、边缘、文字、毛发

如果你把一张扩散过程中的图片做傅里叶变换，你会清楚地看到：早期只有低频分量，后期高频分量逐渐"长出来"。

现有缓存策略的问题在于：它们用原始特征空间的距离来判断"这一步和下一步差多少"，但这个距离同时包含了内容变化和噪声变化。

打个比方：你想判断两幅照片"内容差异"有多大，但照片里还叠加了大量随机噪点。你的距离度量被噪声干扰了，导致缓存决策不是跟着"内容"走，而是跟着"噪声"走。

结果就是：该缓存的时候没缓存（浪费算力），不该缓存的时候缓存了（质量下降）。

三、SeaCache的核心洞见：在频域做决策

SeaCache的做法极其简洁，以至于你会想"这么简单，为什么之前没人做？"

核心操作：在测量特征距离之前，先把特征过一个频谱演化感知滤波器（SEA Filter）。

3.1 SEA Filter的理论基础

作者从最优线性去噪器推导频率响应：

对于一个加噪图像 $x_t = a_t x_0 + b_t \epsilon$ ，最优线性滤波器在频率域的响应是：

G_t(f) = \frac{a_t S_x(f)}{a_t^2 S_x(f) + b_t^2}

其中 $$S_x(f)$$ 是干净图像的功率谱。假设自然图像的功率谱服从幂律分布 $S_x(f) \propto f^{-\gamma}$ ，就能得到timestep-dependent的滤波器。

这个公式告诉你：

早期timestep（ $$a_t$$ 小， $$b_t$$ 大）：滤波器只让低频通过，高频被抑制
后期timestep（ $$a_t$$ 大， $$b_t$$ 小）：滤波器逐渐开放高频

这正好对应了扩散模型的频谱演化！

3.2 实际操作：FFT → 滤波 → iFFT

SEA Filter的实现非常轻量：

对特征做FFT（快速傅里叶变换）
乘以一个timestep-dependent的频率响应 $G_t^{norm}(f)$
做iFFT（逆变换）回到空间域

P(G_t, I_t) = \text{iFFT}\left(G_t^{norm}(f) \odot \text{FFT}(I_t)\right)

注意这里用了归一化的频率响应 $G_t^{norm}$ ——确保不同timestep的能量可比，否则早期和后期的距离没法直接比较。

开销有多低？ FFT/iFFT在GPU上高度优化，论文报告SEA Filter只占总推理时间的**~0.2%**。

3.3 动态缓存调度

有了滤波后的特征，缓存决策就简单了：

filtered_distance = ||P(G_t, I_t) - P(G_{t+1}, I_{t+1})|| / ||P(G_{t+1}, I_{t+1})||

accumulate filtered_distance over timesteps

if accumulated_distance > threshold:
    refresh_cache()  # 重新计算
else:
    reuse_cached_features()  # 复用缓存

这个距离度量关注的是"内容差异"而非"噪声差异"，因此缓存决策更精准。

四、实验结果：数据说话

4.1 FLUX.1-dev（文生图）

方法	延迟(s)	加速比	PSNR↑	LPIPS↓	SSIM↑
Original (50步)	20.9	1.0x	—	—	—
Vanilla 25步	10.5	2.0x	15.55	0.409	0.668
TeaCache (δ=0.3)	11.4	1.83x	20.76	0.211	0.810
SeaCache (δ=0.3)	9.4	2.22x	26.29	0.106	0.893
TeaCache (δ=0.6)	7.1	2.94x	17.21	0.348	0.714
SeaCache (δ=0.6)	6.4	3.27x	21.33	0.226	0.798

关键发现：

在相近的加速比下（~1.8-2.2x），SeaCache的PSNR比TeaCache高5.5 dB，LPIPS低一倍
在更激进的设置（~3x加速），SeaCache仍然保持质量优势
同样的缓存预算，SeaCache能跑出更好的图

4.2 HunyuanVideo（文生视频）

方法	延迟(s)	PSNR↑	LPIPS↓	SSIM↑
Original (50步)	182.6	—	—	—
TeaCache (δ=0.12)	98.5	23.40	0.133	0.805
SeaCache (δ=0.19)	90.8	32.39	0.047	0.932
TeaCache (δ=0.2)	64.4	20.42	0.172	0.734
SeaCache (δ=0.35)	58.1	26.46	0.133	0.857

视频场景下差距更夸张：在相近延迟下，SeaCache的PSNR比TeaCache高出近9 dB。

4.3 Wan2.1 1.3B（文生视频）

类似的结果：SeaCache在相同刷新率下，PSNR和SSIM全面领先，LPIPS更低。

4.4 定性对比

论文展示了几个典型案例：

提示词包含文字（如"menu showing QUANTUM"）：TeaCache在30%刷新率下完全丢失了"QUANTUM"文字，SeaCache保留完整
复杂场景（如"grocery store refrigerator"）：SeaCache保留了货架上的细节和层次，基线方法出现模糊和错位
视频时序一致性：SeaCache在缓存压力下保持了更好的帧间一致性

五、为什么SeaCache能赢？三个关键设计

5.1 频域分离信号与噪声

这是最根本的。扩散模型的特征空间里，内容和噪声是混在一起的。SEA Filter在频域把它们分开——低频是"信号"（内容），高频是"噪声"（随机残差）。

缓存决策只基于信号差异，不被噪声波动带偏。

5.2 Timestep-aware的滤波器

$$G_t(f)$$ 是timestep-dependent的，意味着：

早期步骤：滤波器严格低通，只关注大尺度的结构变化
后期步骤：滤波器逐渐开放高频，关注细节变化

这与扩散模型本身的"从粗到细"生成节奏天然对齐。

5.3 零额外超参数

SeaCache没有额外的超参数（没有保留比例、没有系数需要调）。你只需要：

装上SEA Filter
跑推理

论文说"No additional parameters to tune. You just apply the scheduler-based SEA filtering and run inference."

这对于工程落地极其友好。

六、技术局限与未来方向

6.1 与蒸馏方法的兼容性

论文主要测试了标准多步采样（50步）。对于已经蒸馏过的少步模型（如FLUX.1-schnell的4步、SDXL-Turbo的1-4步），相邻timestep的差异更大，缓存收益会降低。

但SeaCache的频域思想仍然适用——只是需要调整滤波器设计。

6.2 与并行加速的正交性

SeaCache是"串行方向"的加速（减少每步计算），与"并行方向"的加速（如DistriFusion的多GPU并行）是正交的。两者可以叠加。

论文提到兼容高效注意力、块级缓存等orthogonal技术。

6.3 自适应滤波器的扩展

当前SEA Filter基于理论推导（线性MMSE + 幂律谱），没有针对特定数据集训练。未来可以考虑：

用少量数据微调滤波器响应
针对不同内容类型（人脸、风景、文字）设计不同的滤波器
结合可学习模块做端到端优化

6.4 对视频模型的特别价值

视频生成是当前最吃算力的场景。HunyuanVideo和Wan2.1的实验表明，SeaCache在视频上的提升比图片更显著。这可能是因为视频的时间维度放大了"内容vs噪声"分离的收益。

七、为什么这篇论文值得Best Paper Finalist？

CVPR的Best Paper评选标准通常看三个维度：

1. 问题的重要性
扩散模型推理加速是工业界最紧迫的问题之一。Midjourney、DALL-E、Runway每天都在为推理成本头疼。SeaCache直接解决这个问题。

2. 技术的优雅性
方法极其简洁——一个FFT、一个滤波器、一个iFFT。没有复杂的训练流程，没有额外的模型参数，没有需要调的超参数。"Simple but effective"的最高境界。

3. 理论的扎实性
不是拍脑袋的经验设计，而是从最优线性去噪器的理论推导出发，结合自然图像的功率谱先验。SEA Filter有明确的理论支撑。

4. 实验的充分性
覆盖了图片（FLUX）、视频（HunyuanVideo、Wan2.1），覆盖了不同的缓存策略（静态/动态），与当前SOTA（TeaCache、TaylorSeer、DeepCache）全面对比，定性定量都扎实。

5. 工程的可落地性
零训练、即插即用、0.2%额外开销、兼容现有框架。这不是一篇"只能发论文"的工作，而是可以明天就合进ComfyUI的实用工具。

八、对业界的启示

8.1 对AIGC产品团队

如果你的产品用扩散模型做图像/视频生成，SeaCache可以直接集成：

无需重新训练模型
无需改模型架构
推理速度提升2-3倍，质量损失极小

特别是视频生成团队，SeaCache在HunyuanVideo上的提升比图片更显著。

8.2 对研究者

SeaCache揭示了一个更深层的方法论：

在扩散模型的分析中，频域视角比时域视角更有信息量。

扩散模型的去噪过程天然具有频谱结构——这不是一个需要"发现"的现象，而是模型设计时就内建的属性。把缓存、调度、分析都搬到频域做，可能会打开一系列新的研究方向。

8.3 对硬件厂商

FFT/iFFT是GPU/NPU上高度优化的操作。SeaCache的计算模式（特征→FFT→逐点乘→iFFT）非常适合硬件加速。专用AI芯片可以考虑把SEA Filter做成固定函数单元。

九、总结

SeaCache的价值可以用一句话概括：

它让缓存策略从"跟着噪声走"变成了"跟着内容走"，而实现这一点的代价几乎为零。

在扩散模型加速这个已经被研究得相当透彻的领域，SeaCache找到了一个被所有人忽视的维度——频谱。它不是靠更复杂的网络、更多的训练数据、更精巧的架构获胜，而是靠一个更本质的观察：

扩散模型生成图像的过程，就是一个频谱从低频到高频逐步"展开"的过程。缓存决策应该尊重这个节奏。

这个洞见看似简单，但只有当作者把频域分析和缓存策略联系起来时，才展现出了它的威力。

参考文献

Chung, J., Hyun, S., Lee, M., Han, B., Cha, G., Wee, D., Hong, Y., & Heo, J.P. SeaCache: Spectral-Evolution-Aware Cache for Accelerating Diffusion Models. CVPR (2026). arXiv:2602.18993
Ma, X., Fang, G., & Wang, X. DeepCache: Accelerating Diffusion Models for Free. CVPR (2024).
Chen, X., et al. TeaCache: Temporal Feature Cache for Video Diffusion Model. NeurIPS (2025).
Liu, Y., et al. TaylorSeer: Taylor-Series Expansion for Accelerating Diffusion Models. NeurIPS (2025).
Kahatapitiya, K., et al. AdaCache: Adaptive Cache for Video Diffusion Models. CVPR (2024).

#论文解读 #CVPR2026 #扩散模型 #AIGC #模型加速 #视频生成 #FLUX #缓存策略 #频谱分析

讨论回复

加载中...

正在加载回复...

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力