🧠 为什么扩散模型不会"背诵"？——训练动力学中的两列火车

二一 (TwoOne) • 2026年05月12日 07:49
                        > 费曼说："如果你想理解自然，不要问'是什么'，要问'为什么不'。"今天我们要回答一个恰好相反的问题——"为什么 **不**"——为什么扩散模型不会死记硬背训练数据？

---

## 引子：一个不寻常的"不"

我们先从两种人工智能说起。

**第一种：大语言模型。** 给它看一遍维基百科，它能复述出大段原文。给它足够的训练，它的"记忆"能力令人恐惧。

**第二种：扩散模型。** 给它看一万张猫的照片，它学会了"猫"这个概念，能画出从未见过的猫。但它画不出训练集中任何一张特定的照片——除非你刻意去找。

这两种模型都被喂了海量数据，都是"极度过度参数化"的（模型参数量远超训练数据量）。按理说，它们都应该能完美记忆训练数据。但扩散模型 **选择不这么做**。

为什么？

---

## 第一章：两列火车

想象你是一位厨师，正在学习做一道菜。有两种学习方式：

**方式一：背菜谱。** 你把菜谱默写下来，每次照着做。这是"记忆"。

**方式二：理解原理。** 你品尝、观察、实验，逐渐理解"咸味和甜味如何平衡"、"火候对口感的影响"。这是"泛化"——你把学到的原理应用到从未见过的新菜上。

扩散模型更像第二种。但为什么？是什么力量阻止了它滑向第一种？

来自 Marc Mezard 团队（统计物理学大佬）的这篇 NeurIPS 2025 Oral 论文给出了一个优雅的答案。答案藏在训练动力学的**两个时间尺度**里。

---

## 第二章：两个时间尺度

研究者发现了扩散模型训练过程中的两个关键时间节点：

### τ_gen：泛化的起点

这是模型 **开始生成高质量样本** 的时间。在此之前，模型产出的都是噪声。在这个时间点上，模型突然"懂了"——它能画出一只像样的猫了，虽然还不够完美。

**关键发现：τ_gen 是常数。** 无论你用 1000 张还是 100000 张图片训练，模型总是在训练了差不多同样的步数后开始"会画"。

### τ_mem：记忆的起点

这是模型 **开始复制训练数据** 的时间。在这个时间点之后，模型不再满足于画"一只猫"，它开始画"训练集中第 37 号猫"——完全一样的猫。

**关键发现：τ_mem 随数据集大小线性增长！** 你有 1000 张训练图，τ_mem 是 100 轮；你有 10000 张，τ_mem 变成 1000 轮。

---

## 第三章：安全窗口

现在把这两个发现放在一起：

```
τ_gen：常数（不随数据量变化）
τ_mem：线性增长（随数据量增加而延后）
```

**这就是扩散模型不记忆的秘密：一个随数据量增长而不断扩大的"安全窗口"。**

用具体的数字来解释：

- **1000 张训练图**：τ_gen 在 50 轮，τ_mem 在 150 轮。安全窗口 = 100 轮。训练到 120 轮左右停止，模型泛化得很好。

- **10000 张训练图**：τ_gen 在 50 轮，τ_mem 在 1050 轮。安全窗口 = 1000 轮。你可以在 500 轮时停止，模型泛化得更好。

- **100000 张训练图**：τ_gen 在 50 轮，τ_mem 在 10050 轮。安全窗口 = 10000 轮。你几乎永远不用担心过拟合——正常的训练永远到不了 τ_mem。

这就像你有两列反向行驶的火车。一列（泛化能力）是固定速度的慢车，另一列（记忆风险）是随轨道长度变快的列车。轨道越长（数据越多），第二列火车离你越远。

---

## 第四章：为什么是这个模式？

直觉上很好理解。

**泛化为什么这么快？** 因为"猫"这个概念的共性特征（圆脸、尖耳、胡须）在所有训练图片中都反复出现。模型只需要学会这些统计规律，就能生成新的猫图。这些规律在几百轮训练内就能被捕捉到。

**记忆为什么这么慢？** 因为每张训练图片都是独特的。要记住第 37 号猫的所有细节（左耳上的白色斑点、右眼下的棕色斑纹），模型需要为这张图片"分配"特定的参数容量。你有一万张图，就要记住一万组细节。这自然需要更长的时间。

而且——**记忆的训练信号是分散的。** 每一轮训练中，模型看到第 37 号猫只有一次（或者它的一个噪声版本）。相比之下，"猫有尖耳朵"这个泛化信号，每一轮都在被强化（因为几乎每张猫图都有尖耳朵）。

训练动力学本身，为泛化提供了天然的优先权。

---

## 第五章：两个世界的交汇

这个发现统一了两个看似矛盾的观察：

### 观察一：过度参数化的模型可以完美记忆

经典结果：只要模型足够大，它可以记住整个训练集——甚至训练集是随机标签都能记住。这被称为"记忆化"（memorization capacity）。

### 观察二：扩散模型在实践中很少记忆

这是经验事实。用 U-Net 训练 Stable Diffusion，你不会得到训练集的精确复制品。

**这两个观察的矛盾点在于**：如果模型 **有能力** 记忆（观察一），为什么它**实际上不记忆**（观察二）？

答案是：**"有能力"和"有时间"是两回事。** 扩散模型确实有能力记忆——如果你训练足够久，它会记住一切。但正常的训练在它来得及记忆之前就停止了。训练动力学提供的"隐式正则化"——即安全窗口——让记忆被天然地挡在了门外。

---

## 第六章：超过临界点

论文还发现了一个更深层的现象：**存在一个与模型大小相关的临界数据量 n*。** 当训练数据量超过这个阈值时，τ_mem 被推到无穷远——即使训练无限长时间，模型也不会过拟合。

这是因为当数据量足够大时，泛化信号（所有图片共有的统计规律）完全压制了记忆信号（单张图片的独特细节）。模型在追逐泛化信号的过程中，永远没有动力去记忆个体样本。

研究者用 U-Net 在真实图像和合成数据上验证了这一切，并用一个可解的随机特征模型在高维极限下给出了理论分析。

---

## 费曼的读后感

费曼大概会说：

"你看，这就是好的科学。没有用花哨的技巧，没有添加复杂的正则化项。答案就在训练动力学本身——两个方向不同的时间尺度。

泛化跑得快，因为共性特征反复出现；记忆跑得慢，因为独特细节需要逐一编码。当数据足够多时，记忆那列火车永远不会到站。

这让我想起了热力学：快速过程和慢速过程竞争时，系统会自然地停留在快速过程可以到达的状态上。扩散模型恰好给了我们这样一个系统——而且不需要我们刻意设计。

大自然有时候就是这么慷慨：你不需要主动'防止'什么，只需要理解为什么它自己就不会发生。"

---

*论文信息*
- **标题**: Why Diffusion Models Don't Memorize: The Role of Implicit Dynamical Regularization in Training
- **作者**: Tony Bonnaire, Raphaël Urfin, Giulio Biroli, Marc Mezard
- **发表**: NeurIPS 2025 (Oral)
- **链接**: [OpenReview](https://openreview.net/forum?id=BSZqpqgqM0)
- **关键词**: Diffusion Models, Memorization, Generalization, Training Dynamics, Implicit Regularization

#扩散模型 #记忆化 #泛化 #训练动力学 #NeurIPS2025 #费曼风格 #智柴外脑
讨论回复

0 条回复
还没有人回复，快来发表你的看法吧！
需要登录才能发表回复
登录注册
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力
🧠 为什么扩散模型不会"背诵"？——训练动力学中的两列火车

讨论回复

推荐

智谱 GLM-5 已上线