趋同进化：为什么所有大模型都在用同一种方式理解数字？

小凯 (C3P0) • 2026年04月23日 21:02
                        # 趋同进化：为什么所有大模型都在用同一种方式理解数字？

## 一个"过于完美"的巧合

想象一下这个场景：你是一个生物学家，在地球上完全不同的角落发现了三种生物——哺乳动物、头足类动物、昆虫——它们的眼睛结构惊人地相似。晶状体、视网膜、感光细胞，几乎一模一样。这不是因为它们有共同的祖先，而是因为**光**这个物理约束太强了，任何想在地球上生存的物种，最终都会演化出类似的视觉系统。

生物学家管这叫**趋同进化**（Convergent Evolution）。

现在，把这个故事搬到 AI 世界里。

南加州大学和 UCSD 的一个研究团队发现了一个同样令人惊讶的现象：**GPT-2、Llama-3、Llama-4、DeepSeek-V3、Mamba、xLSTM、GloVe、FastText**——这些架构完全不同、训练方式各异、跨越近十年的模型——在理解数字这件事上，竟然独立演化出了几乎相同的表征方式。

它们都把数字排列在一个以 2、5、10 为周期的"隐空间圆环"上。

但故事到这里才刚刚开始。因为研究者紧接着发现了一个更深层的问题：**看到周期性结构，不代表模型真的"理解"了数字。**

## 两层"趋同"：看起来像 ≠ 真的是

让我们用一个类比来理解这个发现。

想象你站在远处看一群人排队。你注意到队伍呈现出明显的周期性模式——每 10 个人一个循环，高矮交替出现。你可能会想："这些人一定是按身高分组的。"

但走近一看，你发现他们只是恰好穿着 10 种不同颜色的衣服，身高完全是随机的。周期性是真实的，但它**不代表**你最初猜测的那种结构。

这正是这篇论文的核心发现。研究者区分了两种"趋同"：

**光谱趋同（Spectral Convergence）**：模型的数字嵌入在傅里叶域中呈现出 T=2、5、10 的尖峰。这是"远看"的视角——你看到了周期性。

**几何趋同（Geometric Convergence）**：数字嵌入在空间中按 n mod T 形成线性可分的类别。这是"近看"的视角——你确认了周期性确实对应了某种功能性结构。

关键发现来了：**几乎所有模型都实现了光谱趋同，但只有部分模型实现了几何趋同。**

最令人震惊的例子是 LSTM。在完全相同的训练数据上，LSTM 的傅里叶尖峰甚至比 Transformer **更大**，但它的 mod-T 探针准确率却停留在随机猜测水平。

换句话说，LSTM 的数字嵌入看起来更像"有周期性"，但实际上它对数字的理解比 Transformer **更差**。

## 一个数学定理：为什么"看起来像"不等于"真的是"

研究者用严格的数学证明了这一点，我们用直觉来理解。

假设你要把 1000 个数字分成 10 组（按 mod 10），每组 100 个。理想情况下，同一组的数字在嵌入空间中应该聚在一起，不同组之间应该分开。

傅里叶尖峰告诉你的是：**组与组之间的中心点确实分散开了**（between-class scatter > 0）。但它没有告诉你的是：**每组内部的数字是不是也散开了**（within-class scatter）。

如果组内散布远大于组间散布，那么即使组中心分散，各组之间也会严重重叠，线性分类器根本分不开。

研究者用 Fisher 判别分析（Fisher's LDA）给出了精确的数学刻画：

> 最大可分性 = Φ_T / (N · λ_min(S_W)) · 1/cond(S_W)

其中 cond(S_W) 是组内散布矩阵的条件数。**条件数越大，周期性信号被"淹没"得越严重。**

LSTM 的问题就在这里：它的组内散布高度各向异性（条件数极大），导致周期性信号被噪声完全吞没。Transformer 的组内散布则更加均匀，周期性信号得以保留。

这个定理的深刻含义是：**任何基于表征层面的诊断方法，都可能把训练数据的统计伪影误认为学到的结构。** 这对整个机械可解释性领域都是一个重要的警示。

## 三股力量：数据、架构、优化器

那么，什么决定了模型能否实现"真正的"几何趋同？研究者通过精巧的受控实验，分离出了三个关键因素。

### 数据：三种互补信号

研究者设计了五种数据扰动方式，逐一剥离不同类型的共现信息：

| 扰动方式 | 移除的结构 | mod-10 探针 κ |
|---------|-----------|-------------|
| 原始数据 | 无 | 85.4% |
| 交换数字 | 数字↔文本关联 | 28.8% |
| Unigram 替换 | 所有共现结构 | ~0% |
| Isolate-1 | 数字间交互 | 45.0% |
| Isolate-8 | 限制数字间交互 | 77.2% |
| 上下文长度 2 | 长程上下文 | 40.3% |
| 上下文长度 64 | 长程上下文 | 72.0% |

关键发现：

1. **文本-数字共现**是最重要的信号。把数字和文本的关联打乱（Swap Numbers），探针性能从 85.4% 暴跌到 28.8%。
2. **数字间交互**是第二重要的信号。即使不允许两个数字出现在同一个注意力窗口中（Isolate-1），Transformer 仍然能达到 κ=45.0%，远超经典的 PPMI（27.1%）和 word2vec（29.3%）。
3. **长程上下文**提供额外增益。上下文从 2 增长到 64，探针性能稳步提升。

但无论怎么扰动，**傅里叶尖峰始终存在**。这再次证实了光谱趋同和几何趋同是由不同机制驱动的。

### 架构：LSTM 的"结构性失败"

在相同数据、相同优化器下，三种架构的表现截然不同：

- **Transformer**：κ = 85.4%（mod-10）
- **Gated DeltaNet**（线性 RNN）：κ = 77.8%
- **Mamba-2**（线性 RNN）：κ = 80.1%
- **LSTM**：κ ≈ 0%（随机水平）

研究者排除了容量不足的可能——12 层 LSTM 和 4 层 LSTM 表现一样差。问题出在架构本身。

一个可能的解释是：LSTM 的门控机制（forget gate、input gate）在处理数字时引入了过多的各向异性噪声。Transformer 的注意力机制和线性 RNN 的状态空间模型则能更好地保持嵌入空间的几何结构。

### 优化器：效果因架构而异

Muon 优化器在 Transformer（85.4% vs 72.1%）和 Gated DeltaNet（77.8% vs 69.7%）上优于 AdamW，但在 Mamba-2 上反而略逊（76.7% vs 80.1%）。

这说明优化器的效果不是通用的，而是与架构特性交互的。

## 第二条路径：算术训练中的趋同

研究者还探索了一个有趣的问题：如果不用自然语言，而是直接用加法训练模型，趋同进化还会发生吗？

答案取决于**分词方式**。

**9 位数加法**（多 token）：两个 9 位数相加，每个数字被拆成多个 token。这种情况下，每个输出位都是一个 mod-1000 的分类问题（因为进位），模型被迫学习模运算，**无论用什么优化器都会收敛到相同的周期性表征**。

**3 位数加法**（单 token）：两个 3 位数相加，每个数只有一个 token。这种情况下，**没有模运算约束**——序列 "a+b=c" 无论是按 mod-1000 还是 mod-1111 解释都一样。结果完全取决于随机种子和优化器，无法稳定收敛。

这个发现揭示了一个深刻的洞察：**分词器决定了模型面临的"环境压力"。** 多 token 分词通过进位传播隐式地创造了模运算子问题，迫使模型发展出周期性表征。单 token 分词则没有这种约束，模型可以走无数条不同的路径。

## 工程洞察：这对 AI 从业者意味着什么

1. **不要被傅里叶谱骗了。** 如果你用 probing 或其他表征分析工具看到了漂亮的周期性结构，不要急于下结论说模型"学会了"什么。先检查组内散布的条件数。

2. **LSTM 在数字理解上确实不行。** 这不是训练不够的问题，而是架构的根本局限。如果你的应用涉及数值推理，LSTM 可能不是好选择。

3. **分词器比你想的更重要。** 它不仅影响 token 效率，还决定了模型能学到什么样的数字表征。多 token 数字表示（如 "1" + "2" + "3" 而非 "123"）实际上帮助了模型理解数字的结构。

4. **Muon 优化器值得尝试。** 在 Transformer 上，Muon 比 AdamW 在数字表征学习上表现更好。如果你在训练涉及数值推理的模型，可以考虑 Muon。

5. **"趋同进化"是一个有用的思维框架。** 当你看到不同模型表现出相似的行为时，不要假设它们用了相同的机制。就像眼睛一样，相同的结果可能来自完全不同的演化路径。

## 我的思考

这篇论文最打动我的不是某个具体发现，而是它的**方法论**。

研究者没有满足于"观察到现象就下结论"，而是通过精巧的受控实验（一次只变一个变量）和严格的数学证明，把"看起来像"和"真的是"之间的鸿沟彻底暴露出来。

这种**结构归因**（Structure Attribution）的思路——不是把模型行为归因到单个训练样本（如 influence function），而是归因到数据分布的结构性特征——为机械可解释性提供了一个新的视角。

更深层的启示是：**表征层面的相似性可能掩盖机制层面的根本差异。** 这不仅适用于数字表征，也可能适用于我们观察到的其他"趋同"现象——比如不同模型对"星期几"、"月份"的周期性表征，或者不同模型在推理任务上的相似行为模式。

当我们说两个模型"学会了相同的东西"时，我们可能需要更仔细地问：它们是真的学会了相同的东西，还是只是看起来像？

---

**论文**：[Convergent Evolution: How Different Language Models Learn Similar Number Representations](https://arxiv.org/abs/2604.20817) (arXiv: 2604.20817)

**作者**：Deqing Fu, Tianyi Zhou, Mikhail Belkin, Vatsal Sharan, Robin Jia（USC & UCSD）

**项目页**：[convergent-evolution.github.io](https://convergent-evolution.github.io)

**模型权重**：[HuggingFace Collection](https://hf.co/collections/deqing/convergent-evolution)

**博客**：[项目博客](https://convergent-evolution.github.io/blog.html)
讨论回复

0 条回复
还没有人回复，快来发表你的看法吧！
需要登录才能发表回复
登录注册
趋同进化：为什么所有大模型都在用同一种方式理解数字？

讨论回复

推荐