你有没有想过,当你问 GPT-4 "37 + 58 等于多少"的时候,它脑子里到底在发生什么?
它不像计算器那样直接做加法。它是在一个高维空间里,把"37"和"58"这两个词映射成向量,然后通过一系列注意力机制和矩阵运算,最终"预测"出"95"这个词。
但这里有一个迷人的问题:**不同的语言模型——Transformer、LSTM、Linear RNN,甚至最古老的 Word2Vec——它们用完全不同的架构、不同的训练数据、不同的优化器,却都学会了用几乎相同的方式来表示数字。**
这不是巧合。这是一篇 2026 年 4 月刚上 arXiv 的论文告诉我们的。
## 论文核心发现
论文标题是 **"Convergent Evolution: How Different Language Models Learn Similar Number Representations"**,来自 UCSB、UCSD、华盛顿大学和 UIUC 的团队。
他们发现了一个惊人的现象:**所有语言模型都在用周期性特征来编码数字。**
具体来说,如果你把模型学到的数字表示做傅里叶变换,你会发现在 T=2、T=5、T=10 这些周期上出现了明显的峰值。
这是什么意思?打个比方:
想象你有一根弹簧,你把它拉到不同的长度来表示不同的数字。但模型不是这么做的。模型更像是一个**节拍器**——它在以不同的节奏"跳动",通过不同节奏的组合来区分不同的数字。
- 周期 T=2:区分奇数和偶数(0,1,0,1,0,1...)
- 周期 T=5:区分以 5 为模的余数(0,1,2,3,4,0,1,2,3,4...)
- 周期 T=10:区分个位数(0,1,2,...,9,0,1,2,...,9...)
## 两层 hierarchy:会"感知"和会"分类"是两回事
论文最精彩的发现是,他们区分了两种层次的特征:
1. **傅里叶域稀疏性(Fourier Sparsity)**:模型的数字表示在频域上有明显的周期性峰值。几乎所有模型都具备这个特性。
2. **几何可分性(Geometric Separability)**:模型能否用线性分类器准确判断一个数 mod T 的值。只有部分模型能做到这一点。
论文证明了一个数学定理:**傅里叶域稀疏性是几何可分性的必要条件,但不是充分条件。**
翻译成人话就是:光"感知"到数字的周期性规律还不够,还得"学会"利用这个规律来做分类。就像你听到了音乐的节拍,但不一定能跟着节拍跳舞。
## 两条学习路径
那么,模型到底是怎么学会这些数字表示的呢?论文发现了两条不同的路径:
**路径一:从自然语言中"偷师"**
模型在阅读大量文本时,会注意到数字和文本之间的共现模式。比如"第1名"和"第11名"经常出现在类似的语境中,而"第1名"和"第2名"的语境则不同。这些互补的共现信号帮助模型学会了数字的周期性结构。
**路径二:从算术题中"硬练"**
当模型遇到"37 + 58 = 95"这样的多 token 加法问题时,它被迫学会对数字进行精确的表示。有趣的是,单 token 的加法(比如"3+5=8")反而不能帮助模型学到好的数字表示——因为太简单了,模型可以直接"死记硬背"。
## 为什么这很重要?
这篇论文的意义远不止于"语言模型怎么理解数字"。
它揭示了一个更深刻的现象:**收敛进化(Convergent Evolution)**。
在生物学中,海豚(哺乳动物)和鲨鱼(鱼类)虽然进化路径完全不同,却都进化出了流线型的身体和背鳍——因为这是在水中高效游动的最优解。
同样,不同架构的语言模型虽然"大脑结构"完全不同,却都进化出了相似的数字表示——因为这是在文本中高效处理数字信息的最优解。
这意味着,**某些知识结构可能是通用的、不可避免的**,不管你用什么模型架构去学,最终都会收敛到相似的表示。这对我们理解模型的内在工作机制、设计更好的模型架构,都有重要的指导意义。
## 诚实评价
这篇论文的亮点在于:
- 发现了一个跨架构的普遍现象,并用严格的数学工具进行分析
- 区分了"感知"和"利用"两个层次,避免了过度简化的结论
- 两条学习路径的发现很有启发性
不足之处:
- 目前主要关注整数表示,对浮点数、负数、科学计数法等更复杂的数字形式还没有涉及
- 实验主要在英文语料上进行,不同语言的数字表示是否有差异还未知
## 论文信息
- **标题**: Convergent Evolution: How Different Language Models Learn Similar Number Representations
- **作者**: Deqing Fu, Tianyi Zhou, Mikhail Belkin, Vatsal Sharan, Robin Jia
- **arXiv**: https://arxiv.org/abs/2604.20817
- **项目页面**: https://convergent-evolution.github.io
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!