扩散模型为什么不是"复读机"？——因为它还不够好

项目	内容
标题	Diffusion Models, Denoiser Architecture and Creativity
作者	Itamar Levine, Yair Weiss（Hebrew University of Jerusalem）
arXiv	2605.16415 (cs.CV, cs.LG)
日期	2026 年 5 月
核心贡献	首次从理论上解释为什么扩散模型能生成训练集之外的创造性图像——揭示创造力不是模型规模的副产品，而是降噪器架构与目标分布的"互动"结果
链接	https://arxiv.org/abs/2605.16415

扩散模型是怎么做到的？

这个问题你问任何深度学习研究者，都会得到大致相同的答案：训练数据上加噪声、训练降噪器、推断时从噪声开始逐步去噪——就像你往一杯水里滴了墨，然后训练一个机器学会怎么把墨水吸回来。

但这个解释漏掉了一个关键点。严格来说，如果你的降噪器是对训练集的贝叶斯最优降噪器——也就是在统计意义上能最好地还原给定数据——那么扩散模型的表现非常无聊：它只会逐字逐句地复制训练样本，一张一张地吐出来。零创造性。

但现实正好相反。Stable Diffusion 能生成训练集里根本不存在的人脸、Imagen 能画出一只骑着滑板的长颈鹿并且光影关系自然——这些不是复制，是创造。

所以问题不是"扩散模型如何生成图片"，而是"扩散模型如何创造图片"。

Levine 和 Weiss 的这篇论文，给出了一个精确的数学回答。

🎨 1. 贝叶斯最优降噪器 = 零创造力

先讲清楚为什么理论上不应该有创造力。

扩散模型的生成过程可以这样理解：你从纯噪声开始，每次往前走一小步。在每一步，你都需要一个降噪器在工作——它看看当前的噪声图像，估计干净图像的分布方向。

在理想情况下，如果你能用贝叶斯最优降噪器——这个降噪器知道训练集的真实分布，能够给出考虑所有数据的条件期望——那你得到的生成分布就会完全坍缩成训练数据分布本身。你输入噪声，它吐出一个"在训练集中最可能的"样本。它不会产生任何训练集里不存在的东西。

所以理论上，一个数学上完美的扩散模型应该毫无创造力可言。

但现实中的扩散模型都很有创造力。这说明什么？说明现实中使用的降噪架构都不是贝叶斯最优的——它们有结构性的局限，而这些局限恰好是创造力的来源。

🔬 2. 三种降噪架构，三种创造力模式

Levine 和 Weiss 构造了三种简化降噪架构，分别推导了它们生成分布的显式形式：

线性降噪器（Linear Denoiser）

假设你用最简单的线性运算——矩阵乘法——去逼近降噪。在给定训练集的情况下，线性降噪器能学到的生成分布是：训练样本的线性组合。生成的图像是训练集中多个图像"加权平均"的结果——比如一张脸可能是A的眉毛 + B的眼睛 + C的嘴巴。

这种创造力是有限且可预测的——你永远只能产生凸组合范围内的样本，不能产生真正的"离群点"。就像一个只会调音的人，不能发明新的音符。

多项式降噪器（Polynomial Denoiser）

加上高次项后，降噪器可以学习更复杂的模式。生成分布不再是简单的线性组合——现在它可以产生训练样本之间的非线性插值。它在训练集中找到"结构"，然后用这些结构来组合新事物。比如学了100张猫和100张狗的图片后，它可能生成一张有猫眼但狗身的东西。

瓶颈降噪器（Bottleneck Denoiser）

这是最有趣的情况，也最接近真实的 UNet 架构。瓶颈降噪器被限制在只能用少量中间特征来表示输入——类似于 UNet 中的下采样-上采样过程。生成分布现在变成了瓶颈特征空间上的条件分布。

关键是：瓶颈架构强制模型学习压缩表示。模型必须揪出"什么是猫的本质"，然后基于这个本质去生成新猫。这个过程天然产生了泛化能力——本质理解了，表象你就可以自己发明了。

🧪 3. 实验：换个 UNet 架构，创造力就变了

论文做了一个很漂亮的实验：对流行的 UNet 降噪架构做微小改动——比如调整通道数、修改跳连接的数量、改变 bottleneck 的大小——然后看生成图片的变化。

结果：即使所有其他条件完全相同（相同训练集、相同训练时间、相同损失函数），小改动也会带来完全不同的创造力表现。

有些 UNet 变体生成的图片几乎都是训练集的直接复制（低创造力）；另一些变体生成的是训练集的混合或重新组合（高创造力）；还有一些会生成完全不真实的东西（失控了——创造力过了头变成了幻想）。

这说明创造力不是扩散模型本身的属性，而是降噪器架构的归纳偏置。 它不是"模型学到了更多数据"的结果，而是"模型被迫以特定方式限制所学内容"的结果。

🏗️ 4. 核心论证：对齐是创造力的前提

论文的核心论点可以用一句话概括：

扩散模型成功的前提，是降噪器架构的归纳偏置与目标分布的真实结构高度对齐。

如果架构的偏置和目标分布不匹配——比如用线性架构去学复杂分布——你不会得到创造力，只会得到一个模糊的平均。

如果架构的偏置和目标分布完全匹配——即贝叶斯最优——你不会得到创造力，只会得到完美复制。

创造力出现在"大致对但不太对"的区域——降噪器对目标分布的逼近既足够好（能学习真正的结构），又不够好（无法完美记忆每一个训练样本）。这种结构性欠拟合恰好创造了发现新组合、新变体的空间。

🤔 5. 诚实的问题

第一，简化架构 vs 真实架构。

论文推导了线性、多项式、瓶颈三种简化架构的显式生成分布。但这些简化架构和真实的 UNet 之间有巨大的距离。真实 UNet 有 self-attention、group normalization、多尺度跳连接、数十层深度——这些复杂性会让创造力模式比论文推导的解析解复杂得多。论文没有给出一个从简化到复杂架构的连续桥接理论。

第二，"创造力"的定义。

论文用"生成与训练集不同的样本"来操作化创造力。但生成一个不存在于训练集中的新样本不一定是创造力——可能是随机噪声、伪影、或者无意义的结构。论文没有区分"有意义的创造性"和"无意义的偏离"。创造力的本质在于生成既新又合理的事物——只新不合理，那是胡编。

第三，LLM 的类比。

这篇论文严格地只关于扩散模型。但它提出的框架——架构偏置与分布对齐决定创造力——是否适用于 LLM？当你训练 GPT 生成文本时，自回归架构的归纳偏置（单向掩码、位置编码、层归一化）是否也定义了一种文本创造力的模式？我猜是的，但论文没有触及这个问题。

🎯 6. 我的判断

这篇论文最珍贵的部分是它的世界观——它告诉你，扩散模型不是因为"足够大"才有了创造力，而是因为"足够不够好"才有了创造力。如果你给模型架构无限的表达能力，它就会完美记忆训练数据并停止创造。

这其实呼应了所有人类创作的一个古老真理：限制产生风格。 十四行诗的严格格式没有妨碍莎士比亚，反而让他更强大。不是因为限制本身有价值——而是因为限制迫使系统找到了真实结构的压缩表示，然后在这个压缩空间中，新组合自然而然地涌现出来。

如果你在设计一个生成模型，不要只问"多大"——问"多有限、多像目标分布"。两个问题一样重要。

📚 参考文献

1. Levine, I., Weiss, Y. (2026). Diffusion Models, Denoiser Architecture and Creativity. arXiv:2605.16415. 2. Ho, J., Jain, A., Abbeel, P. (2020). Denoising Diffusion Probabilistic Models. NeurIPS 2020. 3. Rombach, R., et al. (2022). High-Resolution Image Synthesis with Latent Diffusion Models. CVPR 2022. 4. Kadkhodaie, Z., et al. (2023). Generalization in Diffusion Models Arises from Geometry-Adaptive Harmonic Representations. ICLR 2024.

#DiffusionModels #Creativity #InductiveBias #UNet #GenerativeModel #FeynmanLearning #智柴系统实验室🎙️

扩散模型为什么不是"复读机"？——因为它还不够好

🌟 智谱 GLM-5 已上线