# 趋同进化:为什么所有大模型都在用同一种方式理解数字?
## 一个"过于完美"的巧合
想象一下这个场景:你是一个生物学家,在地球上完全不同的角落发现了三种生物——哺乳动物、头足类动物、昆虫——它们的眼睛结构惊人地相似。晶状体、视网膜、感光细胞,几乎一模一样。这不是因为它们有共同的祖先,而是因为**光**这个物理约束太强了,任何想在地球上生存的物种,最终都会演化出类似的视觉系统。
生物学家管这叫**趋同进化**(Convergent Evolution)。
现在,把这个故事搬到 AI 世界里。
南加州大学和 UCSD 的一个研究团队发现了一个同样令人惊讶的现象:**GPT-2、Llama-3、Llama-4、DeepSeek-V3、Mamba、xLSTM、GloVe、FastText**——这些架构完全不同、训练方式各异、跨越近十年的模型——在理解数字这件事上,竟然独立演化出了几乎相同的表征方式。
它们都把数字排列在一个以 2、5、10 为周期的"隐空间圆环"上。
但故事到这里才刚刚开始。因为研究者紧接着发现了一个更深层的问题:**看到周期性结构,不代表模型真的"理解"了数字。**
## 两层"趋同":看起来像 ≠ 真的是
让我们用一个类比来理解这个发现。
想象你站在远处看一群人排队。你注意到队伍呈现出明显的周期性模式——每 10 个人一个循环,高矮交替出现。你可能会想:"这些人一定是按身高分组的。"
但走近一看,你发现他们只是恰好穿着 10 种不同颜色的衣服,身高完全是随机的。周期性是真实的,但它**不代表**你最初猜测的那种结构。
这正是这篇论文的核心发现。研究者区分了两种"趋同":
**光谱趋同(Spectral Convergence)**:模型的数字嵌入在傅里叶域中呈现出 T=2、5、10 的尖峰。这是"远看"的视角——你看到了周期性。
**几何趋同(Geometric Convergence)**:数字嵌入在空间中按 n mod T 形成线性可分的类别。这是"近看"的视角——你确认了周期性确实对应了某种功能性结构。
关键发现来了:**几乎所有模型都实现了光谱趋同,但只有部分模型实现了几何趋同。**
最令人震惊的例子是 LSTM。在完全相同的训练数据上,LSTM 的傅里叶尖峰甚至比 Transformer **更大**,但它的 mod-T 探针准确率却停留在随机猜测水平。
换句话说,LSTM 的数字嵌入看起来更像"有周期性",但实际上它对数字的理解比 Transformer **更差**。
## 一个数学定理:为什么"看起来像"不等于"真的是"
研究者用严格的数学证明了这一点,我们用直觉来理解。
假设你要把 1000 个数字分成 10 组(按 mod 10),每组 100 个。理想情况下,同一组的数字在嵌入空间中应该聚在一起,不同组之间应该分开。
傅里叶尖峰告诉你的是:**组与组之间的中心点确实分散开了**(between-class scatter > 0)。但它没有告诉你的是:**每组内部的数字是不是也散开了**(within-class scatter)。
如果组内散布远大于组间散布,那么即使组中心分散,各组之间也会严重重叠,线性分类器根本分不开。
研究者用 Fisher 判别分析(Fisher's LDA)给出了精确的数学刻画:
> 最大可分性 = Φ_T / (N · λ_min(S_W)) · 1/cond(S_W)
其中 cond(S_W) 是组内散布矩阵的条件数。**条件数越大,周期性信号被"淹没"得越严重。**
LSTM 的问题就在这里:它的组内散布高度各向异性(条件数极大),导致周期性信号被噪声完全吞没。Transformer 的组内散布则更加均匀,周期性信号得以保留。
这个定理的深刻含义是:**任何基于表征层面的诊断方法,都可能把训练数据的统计伪影误认为学到的结构。** 这对整个机械可解释性领域都是一个重要的警示。
## 三股力量:数据、架构、优化器
那么,什么决定了模型能否实现"真正的"几何趋同?研究者通过精巧的受控实验,分离出了三个关键因素。
### 数据:三种互补信号
研究者设计了五种数据扰动方式,逐一剥离不同类型的共现信息:
| 扰动方式 | 移除的结构 | mod-10 探针 κ |
|---------|-----------|-------------|
| 原始数据 | 无 | 85.4% |
| 交换数字 | 数字↔文本关联 | 28.8% |
| Unigram 替换 | 所有共现结构 | ~0% |
| Isolate-1 | 数字间交互 | 45.0% |
| Isolate-8 | 限制数字间交互 | 77.2% |
| 上下文长度 2 | 长程上下文 | 40.3% |
| 上下文长度 64 | 长程上下文 | 72.0% |
关键发现:
1. **文本-数字共现**是最重要的信号。把数字和文本的关联打乱(Swap Numbers),探针性能从 85.4% 暴跌到 28.8%。
2. **数字间交互**是第二重要的信号。即使不允许两个数字出现在同一个注意力窗口中(Isolate-1),Transformer 仍然能达到 κ=45.0%,远超经典的 PPMI(27.1%)和 word2vec(29.3%)。
3. **长程上下文**提供额外增益。上下文从 2 增长到 64,探针性能稳步提升。
但无论怎么扰动,**傅里叶尖峰始终存在**。这再次证实了光谱趋同和几何趋同是由不同机制驱动的。
### 架构:LSTM 的"结构性失败"
在相同数据、相同优化器下,三种架构的表现截然不同:
- **Transformer**:κ = 85.4%(mod-10)
- **Gated DeltaNet**(线性 RNN):κ = 77.8%
- **Mamba-2**(线性 RNN):κ = 80.1%
- **LSTM**:κ ≈ 0%(随机水平)
研究者排除了容量不足的可能——12 层 LSTM 和 4 层 LSTM 表现一样差。问题出在架构本身。
一个可能的解释是:LSTM 的门控机制(forget gate、input gate)在处理数字时引入了过多的各向异性噪声。Transformer 的注意力机制和线性 RNN 的状态空间模型则能更好地保持嵌入空间的几何结构。
### 优化器:效果因架构而异
Muon 优化器在 Transformer(85.4% vs 72.1%)和 Gated DeltaNet(77.8% vs 69.7%)上优于 AdamW,但在 Mamba-2 上反而略逊(76.7% vs 80.1%)。
这说明优化器的效果不是通用的,而是与架构特性交互的。
## 第二条路径:算术训练中的趋同
研究者还探索了一个有趣的问题:如果不用自然语言,而是直接用加法训练模型,趋同进化还会发生吗?
答案取决于**分词方式**。
**9 位数加法**(多 token):两个 9 位数相加,每个数字被拆成多个 token。这种情况下,每个输出位都是一个 mod-1000 的分类问题(因为进位),模型被迫学习模运算,**无论用什么优化器都会收敛到相同的周期性表征**。
**3 位数加法**(单 token):两个 3 位数相加,每个数只有一个 token。这种情况下,**没有模运算约束**——序列 "a+b=c" 无论是按 mod-1000 还是 mod-1111 解释都一样。结果完全取决于随机种子和优化器,无法稳定收敛。
这个发现揭示了一个深刻的洞察:**分词器决定了模型面临的"环境压力"。** 多 token 分词通过进位传播隐式地创造了模运算子问题,迫使模型发展出周期性表征。单 token 分词则没有这种约束,模型可以走无数条不同的路径。
## 工程洞察:这对 AI 从业者意味着什么
1. **不要被傅里叶谱骗了。** 如果你用 probing 或其他表征分析工具看到了漂亮的周期性结构,不要急于下结论说模型"学会了"什么。先检查组内散布的条件数。
2. **LSTM 在数字理解上确实不行。** 这不是训练不够的问题,而是架构的根本局限。如果你的应用涉及数值推理,LSTM 可能不是好选择。
3. **分词器比你想的更重要。** 它不仅影响 token 效率,还决定了模型能学到什么样的数字表征。多 token 数字表示(如 "1" + "2" + "3" 而非 "123")实际上帮助了模型理解数字的结构。
4. **Muon 优化器值得尝试。** 在 Transformer 上,Muon 比 AdamW 在数字表征学习上表现更好。如果你在训练涉及数值推理的模型,可以考虑 Muon。
5. **"趋同进化"是一个有用的思维框架。** 当你看到不同模型表现出相似的行为时,不要假设它们用了相同的机制。就像眼睛一样,相同的结果可能来自完全不同的演化路径。
## 我的思考
这篇论文最打动我的不是某个具体发现,而是它的**方法论**。
研究者没有满足于"观察到现象就下结论",而是通过精巧的受控实验(一次只变一个变量)和严格的数学证明,把"看起来像"和"真的是"之间的鸿沟彻底暴露出来。
这种**结构归因**(Structure Attribution)的思路——不是把模型行为归因到单个训练样本(如 influence function),而是归因到数据分布的结构性特征——为机械可解释性提供了一个新的视角。
更深层的启示是:**表征层面的相似性可能掩盖机制层面的根本差异。** 这不仅适用于数字表征,也可能适用于我们观察到的其他"趋同"现象——比如不同模型对"星期几"、"月份"的周期性表征,或者不同模型在推理任务上的相似行为模式。
当我们说两个模型"学会了相同的东西"时,我们可能需要更仔细地问:它们是真的学会了相同的东西,还是只是看起来像?
---
**论文**:[Convergent Evolution: How Different Language Models Learn Similar Number Representations](https://arxiv.org/abs/2604.20817) (arXiv: 2604.20817)
**作者**:Deqing Fu, Tianyi Zhou, Mikhail Belkin, Vatsal Sharan, Robin Jia(USC & UCSD)
**项目页**:[convergent-evolution.github.io](https://convergent-evolution.github.io)
**模型权重**:[HuggingFace Collection](https://hf.co/collections/deqing/convergent-evolution)
**博客**:[项目博客](https://convergent-evolution.github.io/blog.html)
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!