> 费曼在教物理时最常被人问的问题之一是:"你是怎么学会思考物理的?"他总是回答不上来。因为思维的形成是一个渐进又神秘的过程。今天这篇来自斯坦福 Noah Goodman 团队的论文,试图回答一个类似但更精确的问题:**AI 是怎么"学会"数学的?**
---
## 引子:从预测下一个词到解方程
大语言模型只做一件事:**预测下一个词。** 看一百亿个"下一个词",学一百亿次"猜错了"。这就是预训练的全部配方。
但奇迹发生了:一个只学会了预测下一个词的模型,突然就能做数学题了。能算加减乘除、能解方程、能推理几何问题。
"从预测下一个词到解方程"——这个过程是怎么发生的?是某一天突然"开窍"了,还是像人类学数学那样,从简单的开始一步一步来?
斯坦福的研究者设计了第一个系统性的实验来回答这个问题。他们的发现让人意外。
---
## 第一章:一个聪明的实验设计
首先,你需要一个"数学能力的坐标轴"。
研究者借用了美国 K-8 年级的**共同核心课程标准**(Common Core)。这个标准规定了每个年级学生应该掌握的数学技能——从幼儿园的"数数"到八年级的"解线性方程组"。一共 44 个细粒度技能,按年级分层。
然后,他们创建了一个合成数据集 **MathCAMPS**。每个技能都有专门的题目,确保:
- 训练数据中**没有**这些题目(纯合成)
- 每道题测试特定的单一技能
- 不同技能的题目形式一致、互不干扰
最后,他们获取了多个开源模型的**中间检查点**(训练过程中的快照),在 MathCAMPS 上逐一评估。这样就能看到:在第 10 亿个 token 训练后,模型会不会加法?第 100 亿个 token 后,会不会解方程?
---
## 第二章:惊人的发现——AI 按"年级顺序"学数学
这是论文最震撼的发现:
**大语言模型学习数学技能的顺序,与人类课程标准的年级顺序,存在显著的正相关。**
什么意思?就是说 AI 也是先学"数数"和"辨认形状"(幼儿园级别),然后学"加减法"(一年级),再学"乘除法"(三年级),最后才是"方程"和"几何证明"(初中)。
注意:**训练数据是随机排列的。** 没有任何人告诉模型"你应该先学加法再学乘法"。没有任何课程设计。训练语料中,八年级的方程题和一年级的加法题混在一起,随机出现。
但模型的**参数内部**,自组织出了一个学习顺序——而这个顺序恰好和人类教育学家的设计一致。
这就像是:你给一个孩子随机喂各种难度的书,不给他任何指导。他自己也会按照"认字→读句子→读短文→读章节书"的顺序发展阅读能力——即使喂给他的东西是完全乱序的。
---
## 第三章:什么技能先出现?什么后出现?
更细的分析显示了一些有趣的模式:
**先学会的**:计数、数字识别、基本加减法、形状和模式识别。这些是低年级的核心技能,也最早在模型的训练进程中出现。
**后学会的**:多步推理(应用题)、分数运算、代数思维、几何证明。这些需要更复杂的"链条式思维"——不是一步就能解答的,需要在脑中保持多个中间状态。
**最难学会的**:需要"双向推理"的技能——比如"知道答案求条件"的逆向问题。即使模型能正向解题,反向推理的能力出现得很晚。
这个顺序与认知发展心理学的研究高度一致。儿童也是先发展"前向推理",后发展"反向推理"——后者需要更成熟的执行功能和逻辑框架。
---
## 第四章:指令微调——双刃剑
大多数 AI 模型在"预训练"(自由阅读)之后会经历"指令微调"——被教导如何按照规定格式回答问题。
研究者比较了预训练和指令微调两个阶段的数学能力变化:
**受益的技能**:
- 加法和减法(基础运算)
- 基本分数概念
- 单步文字题
**受损的技能**:
- 多步推理(尤其是长链条的逻辑推导)
- 几何空间想象
- 不等式推导
换句话说,**指令微调强化了"模式匹配"能力(看到常见问法直接出答案),但削弱了"深度推理"能力(需要多步思维链条的题目)。**
这个发现让人联想到教育领域的"刷题 vs 奥数"之争:大量做标准化练习可以快速提升基本技能,但可能钝化深度思考的直觉。模型也不例外。
---
## 第五章:为什么?
论文并没有给出完备的理论解释,但提出了几个可能的机制:
1. **认知复杂度天然分层**:不需要课程设计,只要技能本身的"复杂度"存在客观差异(例如解方程比数数需要更多的中间变量和计算步骤),学习顺序自然会按复杂度排序。复杂度最低的先收敛,复杂度高的后收敛。
2. **训练信号的累积速度不同**:像"加法"这样的基础技能,几乎在所有包含数字的训练样本中都能得到某种程度的强化(哪怕是隐式的)。而"解线性方程组"只在很窄的语境中出现。信号密度决定了收敛速度。
3. **表示空间的层级性质**:神经网络天然具有"从简单模式到复杂模式"的表示学习路径。浅层特征(数字大小、形状属性)先稳定,深层特征(关系推导、条件推理)后稳定。数学技能的层级恰好映射到了这个层级上。
---
## 第六章:这意味着什么?
### 对 AI 教育
如果我们理解模型学习数学的顺序和人类相似,那就可以用人类的课程设计来**诊断**模型的学习状态。如同我们用"二年级数学测试"检测小朋友的水平,MathCAMPS 这样的工具可以检测模型"学到了几年级"。
### 对训练策略
既然我们知道了预训练和指令微调分别利于和害于哪些能力,未来可以在不同阶段采用不同的训练策略。预训练阶段重点发展深度推理,微调阶段保护它不被"刷题式"训练冲淡。
### 对理论基础
这个发现暗示了一个更深层的可能性:**智能——无论是生物的还是人工的——可能受限于某些普遍的学习定律。** 复杂度天然分层、信号密度不同、表示层级——这些是跨系统的共性,不依赖于"人类大脑"或"神经网络"的具体实现。
---
## 费曼的读后感
费曼特别不喜欢人们用高大上的词掩盖无知。如果有人告诉他"AI'涌现'了数学能力",他大概会追问:"什么叫做'涌现'?具体是第几个 token 学会了加法?第几个 token 学会了方程?"
"你看,这篇论文做的工作,就是我说'科学应该'做的事。不是泛泛而谈'模型在变得越来越聪明',而是精确到:'第 2.5 亿个 token 后学会加法,第 15 亿个 token 后学会分数,第 120 亿个 token 后学会解方程。'
而且他们发现了一个让我很感兴趣的事情:这个顺序和人类的课程顺序高度一致。不是人为设计的——数据是随机喂的。这说明技能本身的复杂度决定了学习顺序。简单的先学会,复杂的后学会。这是物理规律,不是教学法。
最后一点我很喜欢:指令微调对深度推理有害。这太反直觉了——'教得更多,反而更差?'但仔细一想确实如此。微调的环境太干净了('请用以下格式回答'),模型学会了走捷径:'看到这个格式就用那个答案'。真正的推理——那种需要多步思考、需要持有矛盾的中间状态——在干净的环境里反而被忽略了。
这对教育也是一个警告:过度标准化,会杀掉真正的思维能力。"
---
*论文信息*
- **标题**: From Next-Token to Mathematics: The Learning Dynamics of Mathematical Reasoning in Language Models
- **作者**: Shubhra Mishra, Gabriel Poesia, Noah Goodman (Stanford)
- **发表**: COLM 2025
- **链接**: [OpenReview](https://openreview.net/forum?id=bJ9aARjtBu)
- **数据集**: MathCAMPS — 44 skills, K-8 Common Core
#数学推理 #训练动力学 #涌现 #认知科学 #预训练 #COLM2025 #费曼风格 #智柴外脑
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens
通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力