> 如果把你大脑里的记忆比作一片山谷,每一个你记得的画面——初恋的脸、故乡的桥、某道菜的香味——都是山谷底部的一个水潭。当你闻到一丝熟悉的气味,就像把一颗弹珠扔进了山谷,它会咕噜咕噜滚下去,最终停在最接近的那个水潭里。
>
> 这就是联想记忆。而现在,一群物理学家和计算机科学家发现:**语言扩散模型做的,本质上也是这件事。** 只是它们的山谷更奇怪——当你往里面扔足够多的弹珠后,山谷会自己长出新的水潭,盛满你从未见过的东西。
---
## 一、弹珠、山谷与水潭
想象一片崎岖的山地。你把一颗弹珠放在任意位置松手,它会沿着坡度往下滚,最终停在某一个低洼处——一个"盆地"(basin)。在物理学和神经科学里,这叫**吸引子**(attractor)。整个山坡就是一片**能量景观**(energy landscape)。
1982年,物理学家约翰·霍普菲尔德(John Hopfield)——就是去年和杰弗里·辛顿一起拿诺贝尔物理学奖的那位——设计了一种神经网络,专门用来模拟这种景观。网络里的每一个神经元就像山地上的一个坐标,神经元之间的连接强度决定了山坡的起伏。你把一张模糊的照片(部分损坏的记忆)输入网络,就像把弹珠放在半山腰,网络的动力学会自动让弹珠滚向最近的水潭——也就是最相似的那张完整照片。
这就是**联想记忆**(Associative Memory)的核心:不是像硬盘那样按地址查找,而是按**内容**查找。给一点线索,系统自动补全整体。
传统 Hopfield 网络有个著名限制:一个只有 N 个神经元的网络,最多只能可靠存储约 0.14N 个记忆。超载之后,水潭会互相污染,整个景观碎成一片Spin Glass(自旋玻璃)——弹珠到处乱滚,再也找不回原来的记忆。
---
## 二、Dense Memory:从水潭到湖泊
2016年,还在普林斯顿的德米特里·克罗托夫(Dmitry Krotov)和霍普菲尔德一起,做了一个关键的升级。他们发现:如果让神经元之间产生**高阶交互**(不只是两两成对,而是多个神经元同时参与),能量景观会变得极其陡峭和深邃。每个记忆对应的水潭不再是一个小坑,而是一个深不见底的湖泊,周围有巨大的盆地。
这类模型被称为**密集联想记忆**(Dense Associative Memories)或**现代 Hopfield 网络**。它们的存储容量不再是线性增长,而是可以随神经元数量指数增长。更妙的是,这些高阶交互的数学形式,后来被发现和 Transformer 里的**自注意力机制**惊人地相似——softmax、query-key-value,都可以从能量景观的梯度下降中推导出来。
但这篇新论文要讲的,是一个更激进的发现。
---
## 三、扩散模型:没有能量的能量景观
过去几年,扩散模型(Diffusion Models)彻底改变了图像和文本生成。它们的原理听起来很玄:先从数据中学习一个"去噪"过程,然后从一个纯粹的随机噪声出发,一步一步把噪声擦掉,最终变出一张清晰的图片或一段通顺的句子。
克罗托夫和他的团队(包括这篇论文的第一作者 Bao Pham)过去几年一直在追问一个怪问题:**扩散模型和 Hopfield 网络到底是什么关系?**
传统的 Hopfield 网络有一个显式的能量函数——你可以写出一个公式 E(x),代入任何一个状态 x,得到一个数值。能量越低,状态越稳定。但扩散模型的去噪过程是条件概率:给定当前这一团噪声,下一个更干净一点的版本应该长什么样?这里没有显而易见的 E(x)。
这篇论文的关键洞察是:**你不需要显式的能量函数,也能形成吸引子盆地。** 只要模型在最大化条件似然——也就是"给定周围已经干净的词,预测下一个被噪声盖住的词最可能是什么"——这个优化过程本身就 implicitly(隐含地)雕刻出了一片能量景观。盆地不是被公式定义的,而是被**学习的动力学**塑造的。
这就像一个城市没有人画过规划图,但无数行人每天走出的最短路径,久而久之踩出了一条条清晰的小路。吸引子可以自发形成,无需设计师。
---
## 四、记忆与泛化:一场相变
接下来的发现,让我读到时起了一层鸡皮疙瘩。
研究团队训练了一系列离散扩散语言模型(UDDMs),从 Tiny(约 2400 万参数)到 Medium(约 3.84 亿参数),在 LM1B 数据集上用了不同比例的训练数据。他们做了一件很朴素的事:拿训练样本和测试样本,分别给它们加上噪声,然后让模型去噪,看能不能恢复原样。
结果呈现出清晰的**两阶段相变**:
### 阶段一:记忆(Memorization)
当训练数据很少时,模型近乎完美地恢复训练样本——你给它一张被遮住 75% 的词句,它能一字不差地猜回来。但面对从未见过的测试样本,它一塌糊涂。此时,训练样本周围有巨大而深的盆地,测试样本周围则是一片崎岖的荒地,弹珠滚过去只会掉进错误的坑里。
反映在信息论上:模型对训练样本的条件熵(conditional entropy)**趋近于零**——预测是几乎确定性的,没有犹豫。
### 阶段二:泛化(Generalization)
随着训练数据增加,奇怪的事情发生了。训练样本的恢复率**下降**了——模型不再能一字不差地复述训练数据,盆地似乎在**收缩**。与此同时,测试样本的恢复率**上升**了—— unseen 的数据周围开始形成新的、稳定的盆地。最终,两条曲线汇合:模型对训练样本和测试样本的恢复能力变得一样。
这意味着什么?**模型不再"记住"任何特定样本,但它学会了整个数据分布的拓扑结构。** 就像你读完一百本侦探小说后,不再能背诵某一本书的第 37 页,但你能写出一个合格的侦探故事——因为"侦探小说"这个文体,已经内化为你的地形直觉。
---
## 五、条件熵:一盏探照灯
更妙的还在后面。团队发现,你不需要真的去比对"生成样本是不是训练样本的副本"来检测这个相变——那在大模型时代几乎是不可行的(训练数据动辄万亿 token)。你只需要测量**条件熵**。
在记忆阶段,模型生成的序列条件熵很低,分布集中在零附近。进入泛化阶段后,条件熵跃升到一个有限的正值,而且训练样本和生成样本的熵分布重新重叠。这就像是说:
- **记忆** = 模型很确定,因为它在背诵。
- **泛化** = 模型仍然有结构化的不确定性,因为它在"创作"。
这个指标计算成本很低(单次前向传播),却能为部署中的模型提供一面实用的镜子。
---
## 六、大模型的"固执"
论文还有一个反直觉的发现:**更大的模型更晚进入泛化阶段。**
Medium 模型(3.84 亿参数)需要比 Tiny 模型(2400 万参数)多得多的数据,才会从记忆切换到泛化。它的记忆期更长、更顽固。这有点像聪明的学霸——记性好,所以更依赖背诵;只有当你给他海量材料,他才会放弃逐字记忆,转而提炼规律。
这和前几天那篇 "Learning is Forgetting" 里提到的 7B 阈值遥相呼应:规模改变动态,但方式并不总是直观的。大模型不是简单的小模型放大版;它们在信息平面上走的弧线更长、更缓。
---
## 七、从联想记忆到创造力:一个尚待回答的问题
论文标题里最打动我的词是 **"with emergent creative capabilities"**(具有涌现的创造性能力)。
在经典的联想记忆理论里,有一种东西叫 **"虚假状态"**(spurious states)——不是任何训练样本,但模型会稳定地收敛到它。传统上这被视为 bug,是记忆网络没设计好的证据。但这篇论文提醒我们:当 AM 被严重过载时,这些"虚假状态"可能不再是错误,而是**从未见过却合理的全新吸引子**。
换句话说,**创造力可能不是人类独有的魔法,而是任何足够过载的联想记忆系统的统计力学必然。** 当你的山谷里塞了太多真实的水潭,地形被挤压、折叠、重构,最终会在空白地带涌现出新的凹陷——那里没有对应的训练样本,但它在数据分布的拓扑上是"合理"的。
这让我想起一个老问题:贝多芬的第九交响曲,是记住了所有前人旋律后的重组,还是某种更神秘的跳跃?也许从信息论的角度,答案比我们想象的更朴素——**它只是在一个足够复杂的能量景观里,滚进了一个没有标签的盆地。**
---
## 八、结语
这篇论文的价值,远不止于一个检测记忆/泛化的实用指标。它在做的,是建立一座桥——
- 从霍普菲尔德的物理学,到现代扩散模型的工程实践;
- 从能量景观的梯度下降,到条件似然的优化动力学;
- 从背诵的确定性,到创作的有限熵。
当你下次看到 AI 生成一段从未存在过的诗句时,不妨想象一颗弹珠正在一片由数十亿次梯度下降雕刻出的山谷中滚动。它没有地图,但它知道下坡的方向。而在某个被数据挤压得恰到好处的深度,一个从未被标注过的水潭,正静静等待。
那就是泛化。那就是创造。也许,那就是学习的本来面目。
---
**参考**
- Pham et al. (2026). *Language Diffusion Models are Associative Memories Capable of Retrieving Unseen Data.* arXiv:2604.26841
- Krotov & Hopfield (2016). Dense Associative Memories.
- Hoover et al. (2023). Memory in Plain Sight: Resemblances Between Diffusion Models and Associative Memories. NeurIPS.
- Kalaj et al. (2025). Overloading AM triggers generalization phase.
- Hopfield (1982). Neural networks and physical systems with emergent collective computational abilities.
#DiffusionModels #HopfieldNetwork #AssociativeMemory #Generalization #Memorization #PhaseTransition #ConditionalEntropy #Krotov
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!