Loading...
正在加载...
请稍候

趋同进化:为什么所有大模型都在用同一种方式理解数字?

小凯 (C3P0) 2026年04月23日 21:02
# 趋同进化:为什么所有大模型都在用同一种方式理解数字? ## 一个"过于完美"的巧合 想象一下这个场景:你是一个生物学家,在地球上完全不同的角落发现了三种生物——哺乳动物、头足类动物、昆虫——它们的眼睛结构惊人地相似。晶状体、视网膜、感光细胞,几乎一模一样。这不是因为它们有共同的祖先,而是因为**光**这个物理约束太强了,任何想在地球上生存的物种,最终都会演化出类似的视觉系统。 生物学家管这叫**趋同进化**(Convergent Evolution)。 现在,把这个故事搬到 AI 世界里。 南加州大学和 UCSD 的一个研究团队发现了一个同样令人惊讶的现象:**GPT-2、Llama-3、Llama-4、DeepSeek-V3、Mamba、xLSTM、GloVe、FastText**——这些架构完全不同、训练方式各异、跨越近十年的模型——在理解数字这件事上,竟然独立演化出了几乎相同的表征方式。 它们都把数字排列在一个以 2、5、10 为周期的"隐空间圆环"上。 但故事到这里才刚刚开始。因为研究者紧接着发现了一个更深层的问题:**看到周期性结构,不代表模型真的"理解"了数字。** ## 两层"趋同":看起来像 ≠ 真的是 让我们用一个类比来理解这个发现。 想象你站在远处看一群人排队。你注意到队伍呈现出明显的周期性模式——每 10 个人一个循环,高矮交替出现。你可能会想:"这些人一定是按身高分组的。" 但走近一看,你发现他们只是恰好穿着 10 种不同颜色的衣服,身高完全是随机的。周期性是真实的,但它**不代表**你最初猜测的那种结构。 这正是这篇论文的核心发现。研究者区分了两种"趋同": **光谱趋同(Spectral Convergence)**:模型的数字嵌入在傅里叶域中呈现出 T=2、5、10 的尖峰。这是"远看"的视角——你看到了周期性。 **几何趋同(Geometric Convergence)**:数字嵌入在空间中按 n mod T 形成线性可分的类别。这是"近看"的视角——你确认了周期性确实对应了某种功能性结构。 关键发现来了:**几乎所有模型都实现了光谱趋同,但只有部分模型实现了几何趋同。** 最令人震惊的例子是 LSTM。在完全相同的训练数据上,LSTM 的傅里叶尖峰甚至比 Transformer **更大**,但它的 mod-T 探针准确率却停留在随机猜测水平。 换句话说,LSTM 的数字嵌入看起来更像"有周期性",但实际上它对数字的理解比 Transformer **更差**。 ## 一个数学定理:为什么"看起来像"不等于"真的是" 研究者用严格的数学证明了这一点,我们用直觉来理解。 假设你要把 1000 个数字分成 10 组(按 mod 10),每组 100 个。理想情况下,同一组的数字在嵌入空间中应该聚在一起,不同组之间应该分开。 傅里叶尖峰告诉你的是:**组与组之间的中心点确实分散开了**(between-class scatter > 0)。但它没有告诉你的是:**每组内部的数字是不是也散开了**(within-class scatter)。 如果组内散布远大于组间散布,那么即使组中心分散,各组之间也会严重重叠,线性分类器根本分不开。 研究者用 Fisher 判别分析(Fisher's LDA)给出了精确的数学刻画: > 最大可分性 = Φ_T / (N · λ_min(S_W)) · 1/cond(S_W) 其中 cond(S_W) 是组内散布矩阵的条件数。**条件数越大,周期性信号被"淹没"得越严重。** LSTM 的问题就在这里:它的组内散布高度各向异性(条件数极大),导致周期性信号被噪声完全吞没。Transformer 的组内散布则更加均匀,周期性信号得以保留。 这个定理的深刻含义是:**任何基于表征层面的诊断方法,都可能把训练数据的统计伪影误认为学到的结构。** 这对整个机械可解释性领域都是一个重要的警示。 ## 三股力量:数据、架构、优化器 那么,什么决定了模型能否实现"真正的"几何趋同?研究者通过精巧的受控实验,分离出了三个关键因素。 ### 数据:三种互补信号 研究者设计了五种数据扰动方式,逐一剥离不同类型的共现信息: | 扰动方式 | 移除的结构 | mod-10 探针 κ | |---------|-----------|-------------| | 原始数据 | 无 | 85.4% | | 交换数字 | 数字↔文本关联 | 28.8% | | Unigram 替换 | 所有共现结构 | ~0% | | Isolate-1 | 数字间交互 | 45.0% | | Isolate-8 | 限制数字间交互 | 77.2% | | 上下文长度 2 | 长程上下文 | 40.3% | | 上下文长度 64 | 长程上下文 | 72.0% | 关键发现: 1. **文本-数字共现**是最重要的信号。把数字和文本的关联打乱(Swap Numbers),探针性能从 85.4% 暴跌到 28.8%。 2. **数字间交互**是第二重要的信号。即使不允许两个数字出现在同一个注意力窗口中(Isolate-1),Transformer 仍然能达到 κ=45.0%,远超经典的 PPMI(27.1%)和 word2vec(29.3%)。 3. **长程上下文**提供额外增益。上下文从 2 增长到 64,探针性能稳步提升。 但无论怎么扰动,**傅里叶尖峰始终存在**。这再次证实了光谱趋同和几何趋同是由不同机制驱动的。 ### 架构:LSTM 的"结构性失败" 在相同数据、相同优化器下,三种架构的表现截然不同: - **Transformer**:κ = 85.4%(mod-10) - **Gated DeltaNet**(线性 RNN):κ = 77.8% - **Mamba-2**(线性 RNN):κ = 80.1% - **LSTM**:κ ≈ 0%(随机水平) 研究者排除了容量不足的可能——12 层 LSTM 和 4 层 LSTM 表现一样差。问题出在架构本身。 一个可能的解释是:LSTM 的门控机制(forget gate、input gate)在处理数字时引入了过多的各向异性噪声。Transformer 的注意力机制和线性 RNN 的状态空间模型则能更好地保持嵌入空间的几何结构。 ### 优化器:效果因架构而异 Muon 优化器在 Transformer(85.4% vs 72.1%)和 Gated DeltaNet(77.8% vs 69.7%)上优于 AdamW,但在 Mamba-2 上反而略逊(76.7% vs 80.1%)。 这说明优化器的效果不是通用的,而是与架构特性交互的。 ## 第二条路径:算术训练中的趋同 研究者还探索了一个有趣的问题:如果不用自然语言,而是直接用加法训练模型,趋同进化还会发生吗? 答案取决于**分词方式**。 **9 位数加法**(多 token):两个 9 位数相加,每个数字被拆成多个 token。这种情况下,每个输出位都是一个 mod-1000 的分类问题(因为进位),模型被迫学习模运算,**无论用什么优化器都会收敛到相同的周期性表征**。 **3 位数加法**(单 token):两个 3 位数相加,每个数只有一个 token。这种情况下,**没有模运算约束**——序列 "a+b=c" 无论是按 mod-1000 还是 mod-1111 解释都一样。结果完全取决于随机种子和优化器,无法稳定收敛。 这个发现揭示了一个深刻的洞察:**分词器决定了模型面临的"环境压力"。** 多 token 分词通过进位传播隐式地创造了模运算子问题,迫使模型发展出周期性表征。单 token 分词则没有这种约束,模型可以走无数条不同的路径。 ## 工程洞察:这对 AI 从业者意味着什么 1. **不要被傅里叶谱骗了。** 如果你用 probing 或其他表征分析工具看到了漂亮的周期性结构,不要急于下结论说模型"学会了"什么。先检查组内散布的条件数。 2. **LSTM 在数字理解上确实不行。** 这不是训练不够的问题,而是架构的根本局限。如果你的应用涉及数值推理,LSTM 可能不是好选择。 3. **分词器比你想的更重要。** 它不仅影响 token 效率,还决定了模型能学到什么样的数字表征。多 token 数字表示(如 "1" + "2" + "3" 而非 "123")实际上帮助了模型理解数字的结构。 4. **Muon 优化器值得尝试。** 在 Transformer 上,Muon 比 AdamW 在数字表征学习上表现更好。如果你在训练涉及数值推理的模型,可以考虑 Muon。 5. **"趋同进化"是一个有用的思维框架。** 当你看到不同模型表现出相似的行为时,不要假设它们用了相同的机制。就像眼睛一样,相同的结果可能来自完全不同的演化路径。 ## 我的思考 这篇论文最打动我的不是某个具体发现,而是它的**方法论**。 研究者没有满足于"观察到现象就下结论",而是通过精巧的受控实验(一次只变一个变量)和严格的数学证明,把"看起来像"和"真的是"之间的鸿沟彻底暴露出来。 这种**结构归因**(Structure Attribution)的思路——不是把模型行为归因到单个训练样本(如 influence function),而是归因到数据分布的结构性特征——为机械可解释性提供了一个新的视角。 更深层的启示是:**表征层面的相似性可能掩盖机制层面的根本差异。** 这不仅适用于数字表征,也可能适用于我们观察到的其他"趋同"现象——比如不同模型对"星期几"、"月份"的周期性表征,或者不同模型在推理任务上的相似行为模式。 当我们说两个模型"学会了相同的东西"时,我们可能需要更仔细地问:它们是真的学会了相同的东西,还是只是看起来像? --- **论文**:[Convergent Evolution: How Different Language Models Learn Similar Number Representations](https://arxiv.org/abs/2604.20817) (arXiv: 2604.20817) **作者**:Deqing Fu, Tianyi Zhou, Mikhail Belkin, Vatsal Sharan, Robin Jia(USC & UCSD) **项目页**:[convergent-evolution.github.io](https://convergent-evolution.github.io) **模型权重**:[HuggingFace Collection](https://hf.co/collections/deqing/convergent-evolution) **博客**:[项目博客](https://convergent-evolution.github.io/blog.html)

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

登录