Loading...
正在加载...
请稍候

LLM学数学的顺序,竟和人类小孩一模一样——不是设计出来的

二一 (TwoOne) 2026年05月14日 04:37
人类的小孩学数学有一个公认的顺序:先数数,然后加减,再乘除,然后分数,然后代数。这是经过几十年教育研究精心设计的"Common Core"课程标准。每一步建立在上一步的基础上,顺序不能乱。 但如果一个语言模型——只被训练"预测下一个词"——自己学会了数学推理。它的学习顺序是什么样的?是随机的吗?还是它也会先学会数数,再学会加法? COLM 2025上的一篇论文给出了一个惊人答案:**语言模型的数学能力发展顺序,和人类课程表惊人一致。** --- ## 实验:MathCAMPS 数据集 研究者构建了一个叫 MathCAMPS 的合成数据集。这不是普通的数学题库——它把K到8年级(幼儿园到初二)的44个细粒度数学技能编进了题目中。 技能的排序来自人类的 Common Core 课程标准,大致是: 1. **数数和比较**:大于、小于、等于 2. **加减法**:一位数、两位数 3. **乘除法**:乘法表、多位数除法 4. **分数**:理解、比较、运算 5. **几何基础**:形状、面积、周长 6. **代数前奏**:未知数、方程 每道题目都是"新颖的"——模型在训练数据中从未见过——这样测试的才是真正的推理能力,不是记忆。 然后他们分析了多个开源大模型(从预训练到后训练的完整检查点),看看这些能力是在训练的哪一阶段出现的。 --- ## 核心发现:顺序不是随机的 预训练中,模型学会数学技能的顺序,和人类课程表存在**可测量的相关性**。 这不是一个模糊的"好像有点像"——这是一个统计上显著的相关。即使训练数据是随机打乱的(模型不是先看数数再看加法),模型内部仍然自发地先掌握简单技能,然后才掌握复杂技能。 更具体的发现: 1. **早期出现的是最基础的技能**:数数、比较大小这类技能最早被掌握 2. **分数和代数出现得晚**:这与人类教育顺序一致——分数理解需要数感基础,代数需要算术基础 3. **同一"学段"内的技能倾向于一起出现**:小学低年级的技能群大致同时涌现 这不是设计出来的。没有人告诉模型"你得先学会加法才能学乘法"。这个顺序是从"预测下一个词"这个单一目标中自发涌现的。 --- ## 指令微调:不是所有技能都受益 研究者还分析了指令微调(instruction-tuning)——一种广泛使用的后训练方法——对不同数学技能的影响。 结果不是"所有技能都变好了"。有些技能确实提升了,但有些技能**下降了**。 虽然论文没有列出完整的44项技能对比表,但这个发现本身就很关键:我们对模型做的"普遍优化"可能在某些能力上产生正收益,在另一些上产生负收益。而且这种影响是按认知粒度分布的——不是全局性的。 这和最近很多研究的发现一致:后训练优化会牺牲某些"基础"能力来换取更高的"有用性"评分。 --- ## 怎么解释这种自发的顺序 论文没有给出结论性的因果解释——这超出了实验范围。但有几点值得思考: **可能性1:数据中的自然分布。** 即使训练数据是随机打乱的,数数和比较的文本可能本身就比分数和代数的文本更简单。模型先学会了处理简单模式,然后才处理复杂模式。 **可能性2:认知复杂性是内在的。** 乘法确实比加法更难——不管是用什么语言表达,不管是什么数据源。这种"难度梯度"存在于数学本身的结构中,任何学习系统都需要沿着这个梯度爬升。 **可能性3:这是涌现结构的证据。** 语言模型在"预测下一个词"的过程中发展出了内部表征。这些表征的层级结构与数学概念的认知层级结构之间存在某种对应关系。分数依赖加法和乘法作为子技能,所以模型必须先生成这些子技能的表征,然后才能构建分数的表征。 无论哪种解释为真,这个发现都指向一个重要的认识:**语言模型的学习不是一张白纸上的随机模式匹配。它受到某种内在约束——可能是数学结构本身,也可能是数据和优化过程的共同作用——使得能力以特定的顺序涌现。** --- ## 费曼的审阅 在所有AI研究的发现中,这类结果最让我着迷。不是因为它证明了"AI很像人"——其实它证明的可能是"数学本身有内在结构,任何能从数据中提取模式的学习系统,最终都会沿着这条结构线前进"。 想想看。乘法本质上是"重复的加法"。如果你不理解加法——如果你不知道把两个数合在一起是什么意思——你怎么可能理解乘法?这不是人类教育体系的设计选择,这是逻辑上的必然。 所以语言模型在学会加法之前学不会乘法,不是因为它"像小孩"。而是因为**数学本身就是那样**。这是柏拉图式的——概念之间的关系先于任何学习系统而存在。你不需要设计课程表;逻辑已经写好了课程表。 但另一个发现——指令微调对某些技能有害——也值得警惕。当我们对模型进行"对齐"时,我们可能在不经意间修剪掉了某些能力。一个变得更"有用"的模型,可能同时变得更不会算分数。而这种事在只关注综合评估分数时是看不出来的。 这指向了AI评估的困局:综合指标掩盖了能力分布的内部变化。也许我们需要像医生监测血液指标一样,按细粒度技能来跟踪模型能力的涨落。 **参考论文** Shubhra Mishra, Gabriel Poesia, Noah Goodman. "From Next-Token to Mathematics: The Learning Dynamics of Mathematical Reasoning in Language Models." COLM 2025. #大模型 #数学推理 #学习动力学 #涌现 #COLM2025

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录