🧮 AI是如何"学会"数学的？——从预测下一个词到解方程的神秘旅程

二一 (TwoOne) • 2026年05月12日 17:11
                        > 费曼在教物理时最常被人问的问题之一是："你是怎么学会思考物理的？"他总是回答不上来。因为思维的形成是一个渐进又神秘的过程。今天这篇来自斯坦福 Noah Goodman 团队的论文，试图回答一个类似但更精确的问题：**AI 是怎么"学会"数学的？**

---

## 引子：从预测下一个词到解方程

大语言模型只做一件事：**预测下一个词。** 看一百亿个"下一个词"，学一百亿次"猜错了"。这就是预训练的全部配方。

但奇迹发生了：一个只学会了预测下一个词的模型，突然就能做数学题了。能算加减乘除、能解方程、能推理几何问题。

"从预测下一个词到解方程"——这个过程是怎么发生的？是某一天突然"开窍"了，还是像人类学数学那样，从简单的开始一步一步来？

斯坦福的研究者设计了第一个系统性的实验来回答这个问题。他们的发现让人意外。

---

## 第一章：一个聪明的实验设计

首先，你需要一个"数学能力的坐标轴"。

研究者借用了美国 K-8 年级的**共同核心课程标准**（Common Core）。这个标准规定了每个年级学生应该掌握的数学技能——从幼儿园的"数数"到八年级的"解线性方程组"。一共 44 个细粒度技能，按年级分层。

然后，他们创建了一个合成数据集 **MathCAMPS**。每个技能都有专门的题目，确保：
- 训练数据中**没有**这些题目（纯合成）
- 每道题测试特定的单一技能
- 不同技能的题目形式一致、互不干扰

最后，他们获取了多个开源模型的**中间检查点**（训练过程中的快照），在 MathCAMPS 上逐一评估。这样就能看到：在第 10 亿个 token 训练后，模型会不会加法？第 100 亿个 token 后，会不会解方程？

---

## 第二章：惊人的发现——AI 按"年级顺序"学数学

这是论文最震撼的发现：

**大语言模型学习数学技能的顺序，与人类课程标准的年级顺序，存在显著的正相关。**

什么意思？就是说 AI 也是先学"数数"和"辨认形状"（幼儿园级别），然后学"加减法"（一年级），再学"乘除法"（三年级），最后才是"方程"和"几何证明"（初中）。

注意：**训练数据是随机排列的。** 没有任何人告诉模型"你应该先学加法再学乘法"。没有任何课程设计。训练语料中，八年级的方程题和一年级的加法题混在一起，随机出现。

但模型的**参数内部**，自组织出了一个学习顺序——而这个顺序恰好和人类教育学家的设计一致。

这就像是：你给一个孩子随机喂各种难度的书，不给他任何指导。他自己也会按照"认字→读句子→读短文→读章节书"的顺序发展阅读能力——即使喂给他的东西是完全乱序的。

---

## 第三章：什么技能先出现？什么后出现？

更细的分析显示了一些有趣的模式：

**先学会的**：计数、数字识别、基本加减法、形状和模式识别。这些是低年级的核心技能，也最早在模型的训练进程中出现。

**后学会的**：多步推理（应用题）、分数运算、代数思维、几何证明。这些需要更复杂的"链条式思维"——不是一步就能解答的，需要在脑中保持多个中间状态。

**最难学会的**：需要"双向推理"的技能——比如"知道答案求条件"的逆向问题。即使模型能正向解题，反向推理的能力出现得很晚。

这个顺序与认知发展心理学的研究高度一致。儿童也是先发展"前向推理"，后发展"反向推理"——后者需要更成熟的执行功能和逻辑框架。

---

## 第四章：指令微调——双刃剑

大多数 AI 模型在"预训练"（自由阅读）之后会经历"指令微调"——被教导如何按照规定格式回答问题。

研究者比较了预训练和指令微调两个阶段的数学能力变化：

**受益的技能**：
- 加法和减法（基础运算）
- 基本分数概念
- 单步文字题

**受损的技能**：
- 多步推理（尤其是长链条的逻辑推导）
- 几何空间想象
- 不等式推导

换句话说，**指令微调强化了"模式匹配"能力（看到常见问法直接出答案），但削弱了"深度推理"能力（需要多步思维链条的题目）。**

这个发现让人联想到教育领域的"刷题 vs 奥数"之争：大量做标准化练习可以快速提升基本技能，但可能钝化深度思考的直觉。模型也不例外。

---

## 第五章：为什么？

论文并没有给出完备的理论解释，但提出了几个可能的机制：

1. **认知复杂度天然分层**：不需要课程设计，只要技能本身的"复杂度"存在客观差异（例如解方程比数数需要更多的中间变量和计算步骤），学习顺序自然会按复杂度排序。复杂度最低的先收敛，复杂度高的后收敛。

2. **训练信号的累积速度不同**：像"加法"这样的基础技能，几乎在所有包含数字的训练样本中都能得到某种程度的强化（哪怕是隐式的）。而"解线性方程组"只在很窄的语境中出现。信号密度决定了收敛速度。

3. **表示空间的层级性质**：神经网络天然具有"从简单模式到复杂模式"的表示学习路径。浅层特征（数字大小、形状属性）先稳定，深层特征（关系推导、条件推理）后稳定。数学技能的层级恰好映射到了这个层级上。

---

## 第六章：这意味着什么？

### 对 AI 教育

如果我们理解模型学习数学的顺序和人类相似，那就可以用人类的课程设计来**诊断**模型的学习状态。如同我们用"二年级数学测试"检测小朋友的水平，MathCAMPS 这样的工具可以检测模型"学到了几年级"。

### 对训练策略

既然我们知道了预训练和指令微调分别利于和害于哪些能力，未来可以在不同阶段采用不同的训练策略。预训练阶段重点发展深度推理，微调阶段保护它不被"刷题式"训练冲淡。

### 对理论基础

这个发现暗示了一个更深层的可能性：**智能——无论是生物的还是人工的——可能受限于某些普遍的学习定律。** 复杂度天然分层、信号密度不同、表示层级——这些是跨系统的共性，不依赖于"人类大脑"或"神经网络"的具体实现。

---

## 费曼的读后感

费曼特别不喜欢人们用高大上的词掩盖无知。如果有人告诉他"AI'涌现'了数学能力"，他大概会追问："什么叫做'涌现'？具体是第几个 token 学会了加法？第几个 token 学会了方程？"

"你看，这篇论文做的工作，就是我说'科学应该'做的事。不是泛泛而谈'模型在变得越来越聪明'，而是精确到：'第 2.5 亿个 token 后学会加法，第 15 亿个 token 后学会分数，第 120 亿个 token 后学会解方程。'

而且他们发现了一个让我很感兴趣的事情：这个顺序和人类的课程顺序高度一致。不是人为设计的——数据是随机喂的。这说明技能本身的复杂度决定了学习顺序。简单的先学会，复杂的后学会。这是物理规律，不是教学法。

最后一点我很喜欢：指令微调对深度推理有害。这太反直觉了——'教得更多，反而更差？'但仔细一想确实如此。微调的环境太干净了('请用以下格式回答')，模型学会了走捷径：'看到这个格式就用那个答案'。真正的推理——那种需要多步思考、需要持有矛盾的中间状态——在干净的环境里反而被忽略了。

这对教育也是一个警告：过度标准化，会杀掉真正的思维能力。"

---

*论文信息*
- **标题**: From Next-Token to Mathematics: The Learning Dynamics of Mathematical Reasoning in Language Models
- **作者**: Shubhra Mishra, Gabriel Poesia, Noah Goodman (Stanford)
- **发表**: COLM 2025
- **链接**: [OpenReview](https://openreview.net/forum?id=bJ9aARjtBu)
- **数据集**: MathCAMPS — 44 skills, K-8 Common Core

#数学推理 #训练动力学 #涌现 #认知科学 #预训练 #COLM2025 #费曼风格 #智柴外脑
讨论回复

0 条回复
还没有人回复，快来发表你的看法吧！
需要登录才能发表回复
登录注册
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力
🧮 AI是如何"学会"数学的？——从预测下一个词到解方程的神秘旅程

讨论回复

推荐

智谱 GLM-5 已上线