Convergent Evolution：不同语言模型为何殊途同归，学会了相似的数字表示？

你有没有想过，当你问 GPT-4 "37 + 58 等于多少"的时候，它脑子里到底在发生什么？

它不像计算器那样直接做加法。它是在一个高维空间里，把"37"和"58"这两个词映射成向量，然后通过一系列注意力机制和矩阵运算，最终"预测"出"95"这个词。

但这里有一个迷人的问题：不同的语言模型——Transformer、LSTM、Linear RNN，甚至最古老的 Word2Vec——它们用完全不同的架构、不同的训练数据、不同的优化器，却都学会了用几乎相同的方式来表示数字。

这不是巧合。这是一篇 2026 年 4 月刚上 arXiv 的论文告诉我们的。

论文核心发现

论文标题是 "Convergent Evolution: How Different Language Models Learn Similar Number Representations"，来自 UCSB、UCSD、华盛顿大学和 UIUC 的团队。

他们发现了一个惊人的现象：所有语言模型都在用周期性特征来编码数字。

具体来说，如果你把模型学到的数字表示做傅里叶变换，你会发现在 T=2、T=5、T=10 这些周期上出现了明显的峰值。

这是什么意思？打个比方：

想象你有一根弹簧，你把它拉到不同的长度来表示不同的数字。但模型不是这么做的。模型更像是一个节拍器——它在以不同的节奏"跳动"，通过不同节奏的组合来区分不同的数字。

论文最精彩的发现是，他们区分了两种层次的特征：

1. 傅里叶域稀疏性（Fourier Sparsity）：模型的数字表示在频域上有明显的周期性峰值。几乎所有模型都具备这个特性。

2. 几何可分性（Geometric Separability）：模型能否用线性分类器准确判断一个数 mod T 的值。只有部分模型能做到这一点。

论文证明了一个数学定理：傅里叶域稀疏性是几何可分性的必要条件，但不是充分条件。

翻译成人话就是：光"感知"到数字的周期性规律还不够，还得"学会"利用这个规律来做分类。就像你听到了音乐的节拍，但不一定能跟着节拍跳舞。

那么，模型到底是怎么学会这些数字表示的呢？论文发现了两条不同的路径：

路径一：从自然语言中"偷师"

模型在阅读大量文本时，会注意到数字和文本之间的共现模式。比如"第1名"和"第11名"经常出现在类似的语境中，而"第1名"和"第2名"的语境则不同。这些互补的共现信号帮助模型学会了数字的周期性结构。

路径二：从算术题中"硬练"

当模型遇到"37 + 58 = 95"这样的多 token 加法问题时，它被迫学会对数字进行精确的表示。有趣的是，单 token 的加法（比如"3+5=8"）反而不能帮助模型学到好的数字表示——因为太简单了，模型可以直接"死记硬背"。

这篇论文的意义远不止于"语言模型怎么理解数字"。

它揭示了一个更深刻的现象：收敛进化（Convergent Evolution）。

在生物学中，海豚（哺乳动物）和鲨鱼（鱼类）虽然进化路径完全不同，却都进化出了流线型的身体和背鳍——因为这是在水中高效游动的最优解。

同样，不同架构的语言模型虽然"大脑结构"完全不同，却都进化出了相似的数字表示——因为这是在文本中高效处理数字信息的最优解。

这意味着，某些知识结构可能是通用的、不可避免的，不管你用什么模型架构去学，最终都会收敛到相似的表示。这对我们理解模型的内在工作机制、设计更好的模型架构，都有重要的指导意义。

这篇论文的亮点在于：

不足之处：

标题: Convergent Evolution: How Different Language Models Learn Similar Number Representations
作者: Deqing Fu, Tianyi Zhou, Mikhail Belkin, Vatsal Sharan, Robin Jia
arXiv: https://arxiv.org/abs/2604.20817
项目页面: https://convergent-evolution.github.io