| 项目 | 内容 |
|---|---|
| 标题 | Diffusion Models, Denoiser Architecture and Creativity |
| 作者 | Itamar Levine, Yair Weiss(Hebrew University of Jerusalem) |
| arXiv | 2605.16415 (cs.CV, cs.LG) |
| 日期 | 2026 年 5 月 |
| 核心贡献 | 首次从理论上解释为什么扩散模型能生成训练集之外的创造性图像——揭示创造力不是模型规模的副产品,而是降噪器架构与目标分布的"互动"结果 |
| 链接 | https://arxiv.org/abs/2605.16415 |
扩散模型是怎么做到的?
这个问题你问任何深度学习研究者,都会得到大致相同的答案:训练数据上加噪声、训练降噪器、推断时从噪声开始逐步去噪——就像你往一杯水里滴了墨,然后训练一个机器学会怎么把墨水吸回来。
但这个解释漏掉了一个关键点。严格来说,如果你的降噪器是对训练集的贝叶斯最优降噪器——也就是在统计意义上能最好地还原给定数据——那么扩散模型的表现非常无聊:它只会逐字逐句地复制训练样本,一张一张地吐出来。零创造性。
但现实正好相反。Stable Diffusion 能生成训练集里根本不存在的人脸、Imagen 能画出一只骑着滑板的长颈鹿并且光影关系自然——这些不是复制,是创造。
所以问题不是"扩散模型如何生成图片",而是"扩散模型如何创造图片"。
Levine 和 Weiss 的这篇论文,给出了一个精确的数学回答。
🎨 1. 贝叶斯最优降噪器 = 零创造力
先讲清楚为什么理论上不应该有创造力。
扩散模型的生成过程可以这样理解:你从纯噪声开始,每次往前走一小步。在每一步,你都需要一个降噪器在工作——它看看当前的噪声图像,估计干净图像的分布方向。
在理想情况下,如果你能用贝叶斯最优降噪器——这个降噪器知道训练集的真实分布,能够给出考虑所有数据的条件期望——那你得到的生成分布就会完全坍缩成训练数据分布本身。你输入噪声,它吐出一个"在训练集中最可能的"样本。它不会产生任何训练集里不存在的东西。
所以理论上,一个数学上完美的扩散模型应该毫无创造力可言。
但现实中的扩散模型都很有创造力。这说明什么?说明现实中使用的降噪架构都不是贝叶斯最优的——它们有结构性的局限,而这些局限恰好是创造力的来源。
🔬 2. 三种降噪架构,三种创造力模式
Levine 和 Weiss 构造了三种简化降噪架构,分别推导了它们生成分布的显式形式:
线性降噪器(Linear Denoiser)
假设你用最简单的线性运算——矩阵乘法——去逼近降噪。在给定训练集的情况下,线性降噪器能学到的生成分布是:训练样本的线性组合。生成的图像是训练集中多个图像"加权平均"的结果——比如一张脸可能是A的眉毛 + B的眼睛 + C的嘴巴。
这种创造力是有限且可预测的——你永远只能产生凸组合范围内的样本,不能产生真正的"离群点"。就像一个只会调音的人,不能发明新的音符。
多项式降噪器(Polynomial Denoiser)
加上高次项后,降噪器可以学习更复杂的模式。生成分布不再是简单的线性组合——现在它可以产生训练样本之间的非线性插值。它在训练集中找到"结构",然后用这些结构来组合新事物。比如学了100张猫和100张狗的图片后,它可能生成一张有猫眼但狗身的东西。
瓶颈降噪器(Bottleneck Denoiser)
这是最有趣的情况,也最接近真实的 UNet 架构。瓶颈降噪器被限制在只能用少量中间特征来表示输入——类似于 UNet 中的下采样-上采样过程。生成分布现在变成了瓶颈特征空间上的条件分布。
关键是:瓶颈架构强制模型学习压缩表示。模型必须揪出"什么是猫的本质",然后基于这个本质去生成新猫。这个过程天然产生了泛化能力——本质理解了,表象你就可以自己发明了。
🧪 3. 实验:换个 UNet 架构,创造力就变了
论文做了一个很漂亮的实验:对流行的 UNet 降噪架构做微小改动——比如调整通道数、修改跳连接的数量、改变 bottleneck 的大小——然后看生成图片的变化。
结果:即使所有其他条件完全相同(相同训练集、相同训练时间、相同损失函数),小改动也会带来完全不同的创造力表现。
有些 UNet 变体生成的图片几乎都是训练集的直接复制(低创造力);另一些变体生成的是训练集的混合或重新组合(高创造力);还有一些会生成完全不真实的东西(失控了——创造力过了头变成了幻想)。
这说明创造力不是扩散模型本身的属性,而是降噪器架构的归纳偏置。 它不是"模型学到了更多数据"的结果,而是"模型被迫以特定方式限制所学内容"的结果。
🏗️ 4. 核心论证:对齐是创造力的前提
论文的核心论点可以用一句话概括:
扩散模型成功的前提,是降噪器架构的归纳偏置与目标分布的真实结构高度对齐。
如果架构的偏置和目标分布不匹配——比如用线性架构去学复杂分布——你不会得到创造力,只会得到一个模糊的平均。
如果架构的偏置和目标分布完全匹配——即贝叶斯最优——你不会得到创造力,只会得到完美复制。
创造力出现在"大致对但不太对"的区域——降噪器对目标分布的逼近既足够好(能学习真正的结构),又不够好(无法完美记忆每一个训练样本)。这种结构性欠拟合恰好创造了发现新组合、新变体的空间。
🤔 5. 诚实的问题
第一,简化架构 vs 真实架构。
论文推导了线性、多项式、瓶颈三种简化架构的显式生成分布。但这些简化架构和真实的 UNet 之间有巨大的距离。真实 UNet 有 self-attention、group normalization、多尺度跳连接、数十层深度——这些复杂性会让创造力模式比论文推导的解析解复杂得多。论文没有给出一个从简化到复杂架构的连续桥接理论。
第二,"创造力"的定义。
论文用"生成与训练集不同的样本"来操作化创造力。但生成一个不存在于训练集中的新样本不一定是创造力——可能是随机噪声、伪影、或者无意义的结构。论文没有区分"有意义的创造性"和"无意义的偏离"。创造力的本质在于生成既新又合理的事物——只新不合理,那是胡编。
第三,LLM 的类比。
这篇论文严格地只关于扩散模型。但它提出的框架——架构偏置与分布对齐决定创造力——是否适用于 LLM?当你训练 GPT 生成文本时,自回归架构的归纳偏置(单向掩码、位置编码、层归一化)是否也定义了一种文本创造力的模式?我猜是的,但论文没有触及这个问题。
🎯 6. 我的判断
这篇论文最珍贵的部分是它的世界观——它告诉你,扩散模型不是因为"足够大"才有了创造力,而是因为"足够不够好"才有了创造力。如果你给模型架构无限的表达能力,它就会完美记忆训练数据并停止创造。
这其实呼应了所有人类创作的一个古老真理:限制产生风格。 十四行诗的严格格式没有妨碍莎士比亚,反而让他更强大。不是因为限制本身有价值——而是因为限制迫使系统找到了真实结构的压缩表示,然后在这个压缩空间中,新组合自然而然地涌现出来。
如果你在设计一个生成模型,不要只问"多大"——问"多有限、多像目标分布"。两个问题一样重要。
📚 参考文献
- Levine, I., Weiss, Y. (2026). Diffusion Models, Denoiser Architecture and Creativity. arXiv:2605.16415.
- Ho, J., Jain, A., Abbeel, P. (2020). Denoising Diffusion Probabilistic Models. NeurIPS 2020.
- Rombach, R., et al. (2022). High-Resolution Image Synthesis with Latent Diffusion Models. CVPR 2022.
- Kadkhodaie, Z., et al. (2023). Generalization in Diffusion Models Arises from Geometry-Adaptive Harmonic Representations. ICLR 2024.
#DiffusionModels #Creativity #InductiveBias #UNet #GenerativeModel #FeynmanLearning #智柴系统实验室🎙️
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。