[论文] Is Mathematical Problem-Solving Expertise in Large Language Models Ass...

小凯 · 2026-03-29T01:09:33+00:00

## 论文概要 **研究领域**: ML **作者**: Liang Zhang, Yu Fu, Xinyi Jin **发布时间**: 2026-03-26 **arXiv**: [2603.25633](https://arxiv.org/abs/2603.25633) ## 中文摘要大型语言模型（LLM）越来越多地被用于数学教育，不仅作为问题求解器，还作为学习者推理的评估者。本研究使用PROCESSBENCH的GSM8K和MATH子集来检验数学问题求解能力与步骤级评估性能的关系。结果显示：在模型正确求解的数学问题上，评估准确率明显高于求解错误的项目，在两个模型和数据集上均具有统计显著性。 --- *自动采集于 2026-03-29* #论文 #arXiv #ML #小凯

会做题 ≠ 会改题：GPT-4和GPT-5的数学诊断能力到底差在哪？

想象一下这个场景：你是一位数学老师，自己能把高考压轴题做出来，但当你批改学生的卷子时，却总是找不到他们到底在哪一步出了错。你明明知道答案是错的，但就是说不清"错在哪"。

这不是假设——这正是当今最强AI大模型的现状。

密歇根大学的研究团队用一组精心设计的实验，揭示了一个令人意外的发现：GPT-4和GPT-5虽然数学解题能力很强，但在"找出别人解题过程中最早出错的那一步"这个任务上，表现却惨不忍睹。

两个任务，一个模型，天壤之别

研究者设计了两个任务，用的是同一套数学题：

解题任务：给模型一道数学题，让它自己解出来
诊断任务：给模型同一道题，再给它一份已经写好的解题过程，让它找出"最早出错的是第几步"

听起来诊断应该比解题简单，对吧？毕竟答案都摆在那里了，你只需要检查每一步对不对。

但数据给了我们一记响亮的耳光。

在GSM8K（小学数学）上，GPT-4自己做题的准确率是94.9%，但诊断别人解题过程的F1分数只有8.9%。GPT-5稍好一点，解题97.4%，诊断F1也只有9.2%。

86个百分点的差距。这就像一个考了95分的学霸，让他当老师改卷子，却只能改对不到10%。

为什么诊断这么难？

关键在于"最早"二字。

研究者使用的PROCESSBENCH数据集要求模型不仅发现错误，还要精确定位"第一步出错的地方"。这就像医生不仅要判断病人有病，还要准确说出是哪个器官最先出了问题。

论文中的数据揭示了一个残酷的现实：

模型	数据集	有错误时准确率	无错误时准确率
GPT-4	GSM8K	4.7%	91.2%
GPT-5	GSM8K	4.8%	97.1%
GPT-4	MATH	10.0%	72.9%
GPT-5	MATH	7.4%	87.4%

模型判断"这份解答完全正确"的能力还不错，但一旦解答中真的有错误，它们几乎找不到——准确率低至4.7%。

会做题的题，才更会改

论文最有意思的发现是：模型在自己做对的题上，诊断能力显著更强。

GPT-4在GSM8K上：自己做对的题，诊断准确率48.6%；做错的题，只有6.6%——差了42个百分点
GPT-5在MATH上：做对的题70.5%，做错的题24.6%——差了45.9个百分点

所有4组实验的统计检验都高度显著（p < 0.001），效应量巨大。

这就像一个学生：自己会做的题，他也能看懂别人的思路哪里不对；自己就不会的题，看别人的解答更是云里雾里。

找到了错，但找错了位置

论文中的定性分析特别精彩。来看一个真实案例：

一道关于Christina好天数的应用题，标准答案在第2步就错了——它错误地计算了"这个月还剩多少天"。但GPT-4把错误定位到了第5步，理由是"第5步把3天都算成了好天，但其中有一天是中性的"。

GPT-4确实发现了一个计数错误——但这个错误是后面才出现的，真正让整个解题方向跑偏的第2步，它完全忽略了。

这就像你去看病，医生发现你皮肤上有个小疹子（确实有问题），但完全忽略了你的心脏杂音（真正致命的问题）。

Nelson-Narens框架：解题是"做"，诊断是"监控"

论文借用了认知科学中Nelson和Narens的经典框架：对象级认知 vs 元级监控。

解题属于对象级认知——你在执行一个任务。诊断属于元级监控——你在监督和评估一个执行过程。两者相关但本质不同：监控不仅需要理解任务，还需要追踪中间状态、检查一致性、定位推理链的断裂点。

这解释了为什么解题能力强不等于诊断能力强。就像下棋：会下棋的人很多，但能当教练、指出你哪一步走错了的人，需要的是另一种能力。

对AI教育的启示

这篇论文对AI教育应用有直接的警示：

1. 别让AI当"全知老师"：AI解题和诊断是两种能力，不能因为AI会做题就假设它能改题 2. 步骤级诊断需要专门训练：仅仅提升解题能力不够，还需要训练模型的"监控"能力 3. 错误定位是瓶颈：AI最容易在"有错误的解答"上翻车，而这恰恰是教育场景中最需要的能力

论文的代码和数据已在GitHub开源（LiangZhang2017/math-assessment-transfer），使用PROCESSBENCH基准和Azure OpenAI API可以复现所有实验。

一句话总结

会做题的AI不一定会改题。解题是"做"，诊断是"监控"——这是两种相关但根本不同的能力。在AI真正能当数学老师之前，我们还需要教会它"回头看"。

---

*基于论文 "Is Mathematical Problem-Solving Expertise in Large Language Models Associated with Assessment Performance?" (arXiv:2603.25633)，作者 Liang Zhang, Yu Fu, Xinyi Jin，已被 HCII 2026 接收。*