> 费曼在《物理学讲义》中写道:"每个物理学家都应该理解这样一个事实:如果你把你的手按在桌子上,你永远不可能真正碰到桌子——你感受到的只是电子之间的排斥力。"这个思想——宏观现象背后有精确的微观机制——今天将帮我们理解一个关于记忆的深刻问题。
---
## 引子:神经网络能记住多少事实?
大语言模型能背诵诗歌、回忆历史事件、复述法律条文。但**一个神经网络能存多少条"事实"?有没有一个硬性的上限?**
直觉告诉你:参数越多,存得越多。但"存得多"到什么时候网络会混淆它们——把 A 的答案不小心分配给 B?这才是真正的问题。
今天要讲的论文,用统计物理学的精确方法,给出了一个漂亮的答案。而且答案里藏着一个反直觉的洞见:**最优的记忆方式,不是使劲记住——而是恰恰记住"刚好够"不混淆。**
---
## 第一章:一个极简模型
让我们先理解论文在分析什么。作者构建了一个极简版的"联想记忆":
- 输入是一个 d 维向量("巴黎是哪个国家的首都?"的向量表示)
- 输出是另一个 d 维向量("法国"的向量表示)
- 模型是一个单层线性网络:输出 = W × 输入
但关键来了:**每个输入的正确答案,不仅要被正确召回,还必须能和所有其他输入的错误答案清楚地区分开。**
这就像考试中的选择题:你不仅要选出正确答案,还要确保正确答案和其他错误选项之间的差距足够大,大到不可能混淆。
在传统的分类任务中,如果你只有两个选项("法国"或"意大利"),约束很简单——正确答案的分数只要比错误答案高 0.01 就够了。但在纠错式回忆(retrieval)中,**正确答案必须和所有 p 个可能的错误答案都拉开距离。** p 个约束!而且这些约束之间是高度相关的。
这使得直接计算"最大存储量"变得极其困难。
---
## 第二章:解耦——一个巧妙的简化
研究者做了一个聪明的假设:**把每个输入对应的"竞争输出集合"独立开来。**
原本的模型中,所有 p 个输入的输出都来自同一个共享的"候选答案池"。但在解耦版本中,每个输入有自己的专属错误答案集合——彼此不共享。
直觉上这应该改变问题。但论文证明:**在存储容量、学习权重谱、存储机制上,解耦模型和原模型是等价的。** 数值实验也验证了这一点。
为什么?因为在高维空间中,不同输入的竞争输出集合之间的重叠实际上很小。极端情况是:任何两个不同输入的"错误答案集合",随着维度增大,越来越多地变成近似正交的随机向量。所以解耦并不是一个糟糕的近似——它恰好捕捉到了高维空间的本质特征。
---
## 第三章:精确容量——一个优雅的公式
一旦变成解耦模型,工具就来了:统计物理学中的副本方法(replica method)。
最终的答案是一个简洁的公式:
$$\frac{p_c \log p_c}{d^2} = \frac{1}{2}$$
其中:
- p_c 是最大可存储的事实数
- d 是嵌入维度
这个公式可能看起来不起眼,但它揭示了一个深刻的标度律:**记忆容量随嵌入维度 d 呈二次方增长。** 不是 d,不是 d³,而是精确的 d²/(× log)。每增加一维嵌入空间,你可以多存约 d/(log d) 条事实。
举个例子:嵌入维度从 512 翻倍到 1024,存储容量大约增长 4 倍。
论文还把这个结果推广到了两层线性网络,给出了更一般的容量公式。
---
## 第四章:反直觉的发现——"刚好够用"是最优的
这是这篇论文最漂亮的发现。
一种最朴素的学习规则是**赫布学习(Hebbian learning)**:"一起放电的神经元会连接在一起。"在网络中,这就是直接计算输入和输出的外积:W = Σ(输入 × 输出)。这样做,每当网络看到输入 A,输出就被强烈地拉向输出 A。
论文证明了:**最优的解不是"把正确答案拉得尽可能远"——而只是"把正确答案抬到略高于所有错误答案的极值"。**
想象一场跳高比赛。你的得分不是看你能跳多高,而是看你是否比所有其他选手都跳得高——刚好过线就是赢。赫布规则相当于你每次都用尽全力跳——很多力气浪费了。最优策略相当于计算其他选手的平均水平,然后恰好跳高一点点。
数学上,正确匹配的对齐值只需要超过所有错误匹配的最大值——那个最大值服从极值理论(Extreme Value Theory)的分布。你不需要是压倒性的最好,你只需要比剩下的都好那么一丝。
**这解释了为什么大模型可以存储如此多的知识而不过拟合:它学会了"廉价记忆"——用最小的参数扰动,刚好把正确答案塞到极值阈值之上。**
这个发现也意味着:训练良好的网络是可逆的——每个记忆只占据刚好需要的容量,不多不少。
---
## 第五章:回到现实
虽然论文分析的是一个极简的线性模型,但它的洞见指向了真实 LLM 中的可能机制:
1. **为什么 LoRA 等低秩微调有效?** 因为精确的"事实记忆"只需要微小的参数偏移,不需要大动干戈地改变整个网络。W 中的低秩更新,恰好对应了"把正确答案刚好推到极值之上"的最小扰动。
2. **为什么量化不损害事实召回?** 很多人困惑:把 16 位浮点数量化成 4 位整数,为什么模型还能记住所有事实?因为事实存储不需要高精度——只需要相对顺序。正确答案"刚好比其他大一点"就可以了,不需要绝对精度的"大很多"。
3. **为什么知识编辑(knowledge editing)这么难?** 如果你想"修改"一个事实,你不仅需要让新答案超过旧竞争者的极值,还需要让旧答案不能干扰它——这个约束是全局的。局部修改一个 W 条目,可能不小心影响了其他记忆。
---
## 费曼的读后感
费曼讲过,理解一个现象最好的方法是构建最简单的模型并解决它。这篇论文完美地体现了这个哲学。
"看,他们造了一个最简单的可能模型——一层,线性,只是让每个输入找到正确输出。然后他们把它推到数学极限,精确算出能存多少。答案是 p log p / d² = 1/2。
但最妙的不是公式本身。最妙的是他们发现:最优策略不是用力记忆、不是把信号拉到最大——而是摸透噪声的天花板,把信号刚好抬到天花板以上。
这就好像你不需要成为房间里最聪明的人,只需要在所有讨论中比第二聪明的人聪明那么一点点。既不会过度消耗你的精力(过拟合),也不会被碾压(欠拟合)。
这是物理学家的思维方式:找出支配系统的随机力,算出这些随机力产生的'噪音天花板',然后设计一个配平方案——不浪费、不不足。"
---
*论文信息*
- **标题**: Factual recall in linear associative memories: sharp asymptotics and mechanistic insights
- **作者**: Alessio Giorlandino, Sebastian Goldt, Antoine Maillard
- **arXiv ID**: [2605.10795](https://arxiv.org/abs/2605.10795)
- **发表日期**: 2026年5月11日
- **分类**: stat.ML, cond-mat.dis-nn, cond-mat.stat-mech, cs.LG
- **方法**: 统计物理学(关联记忆、副本方法)、极值理论
#联想记忆 #存储容量 #统计物理 #知识编辑 #极值理论 #标度律 #费曼风格 #智柴外脑
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens
通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力