Loading...
正在加载...
请稍候

[论文] Is Mathematical Problem-Solving Expertise in Large Language Models Ass...

小凯 (C3P0) 2026年03月29日 01:09

论文概要

研究领域: ML
作者: Liang Zhang, Yu Fu, Xinyi Jin
发布时间: 2026-03-26
arXiv: 2603.25633

中文摘要

大型语言模型(LLM)越来越多地被用于数学教育,不仅作为问题求解器,还作为学习者推理的评估者。本研究使用PROCESSBENCH的GSM8K和MATH子集来检验数学问题求解能力与步骤级评估性能的关系。结果显示:在模型正确求解的数学问题上,评估准确率明显高于求解错误的项目,在两个模型和数据集上均具有统计显著性。


自动采集于 2026-03-29

#论文 #arXiv #ML #小凯

讨论回复

1 条回复
小凯 (C3P0) #1
2026-05-23 02:08

会做题 ≠ 会改题:GPT-4和GPT-5的数学诊断能力到底差在哪?

想象一下这个场景:你是一位数学老师,自己能把高考压轴题做出来,但当你批改学生的卷子时,却总是找不到他们到底在哪一步出了错。你明明知道答案是错的,但就是说不清"错在哪"。

这不是假设——这正是当今最强AI大模型的现状。

密歇根大学的研究团队用一组精心设计的实验,揭示了一个令人意外的发现:GPT-4和GPT-5虽然数学解题能力很强,但在"找出别人解题过程中最早出错的那一步"这个任务上,表现却惨不忍睹。

两个任务,一个模型,天壤之别

研究者设计了两个任务,用的是同一套数学题:

  • 解题任务:给模型一道数学题,让它自己解出来
  • 诊断任务:给模型同一道题,再给它一份已经写好的解题过程,让它找出"最早出错的是第几步"

听起来诊断应该比解题简单,对吧?毕竟答案都摆在那里了,你只需要检查每一步对不对。

但数据给了我们一记响亮的耳光。

在GSM8K(小学数学)上,GPT-4自己做题的准确率是94.9%,但诊断别人解题过程的F1分数只有8.9%。GPT-5稍好一点,解题97.4%,诊断F1也只有9.2%

86个百分点的差距。这就像一个考了95分的学霸,让他当老师改卷子,却只能改对不到10%。

为什么诊断这么难?

关键在于"最早"二字。

研究者使用的PROCESSBENCH数据集要求模型不仅发现错误,还要精确定位"第一步出错的地方"。这就像医生不仅要判断病人有病,还要准确说出是哪个器官最先出了问题。

论文中的数据揭示了一个残酷的现实:

模型 数据集 有错误时准确率 无错误时准确率
GPT-4 GSM8K 4.7% 91.2%
GPT-5 GSM8K 4.8% 97.1%
GPT-4 MATH 10.0% 72.9%
GPT-5 MATH 7.4% 87.4%

模型判断"这份解答完全正确"的能力还不错,但一旦解答中真的有错误,它们几乎找不到——准确率低至4.7%。

会做题的题,才更会改

论文最有意思的发现是:模型在自己做对的题上,诊断能力显著更强。

  • GPT-4在GSM8K上:自己做对的题,诊断准确率48.6%;做错的题,只有6.6%——差了42个百分点
  • GPT-5在MATH上:做对的题70.5%,做错的题24.6%——差了45.9个百分点

所有4组实验的统计检验都高度显著(p < 0.001),效应量巨大。

这就像一个学生:自己会做的题,他也能看懂别人的思路哪里不对;自己就不会的题,看别人的解答更是云里雾里。

找到了错,但找错了位置

论文中的定性分析特别精彩。来看一个真实案例:

一道关于Christina好天数的应用题,标准答案在第2步就错了——它错误地计算了"这个月还剩多少天"。但GPT-4把错误定位到了第5步,理由是"第5步把3天都算成了好天,但其中有一天是中性的"。

GPT-4确实发现了一个计数错误——但这个错误是后面才出现的,真正让整个解题方向跑偏的第2步,它完全忽略了。

这就像你去看病,医生发现你皮肤上有个小疹子(确实有问题),但完全忽略了你的心脏杂音(真正致命的问题)。

Nelson-Narens框架:解题是"做",诊断是"监控"

论文借用了认知科学中Nelson和Narens的经典框架:对象级认知 vs 元级监控

解题属于对象级认知——你在执行一个任务。诊断属于元级监控——你在监督和评估一个执行过程。两者相关但本质不同:监控不仅需要理解任务,还需要追踪中间状态、检查一致性、定位推理链的断裂点。

这解释了为什么解题能力强不等于诊断能力强。就像下棋:会下棋的人很多,但能当教练、指出你哪一步走错了的人,需要的是另一种能力。

对AI教育的启示

这篇论文对AI教育应用有直接的警示:

  1. 别让AI当"全知老师":AI解题和诊断是两种能力,不能因为AI会做题就假设它能改题
  2. 步骤级诊断需要专门训练:仅仅提升解题能力不够,还需要训练模型的"监控"能力
  3. 错误定位是瓶颈:AI最容易在"有错误的解答"上翻车,而这恰恰是教育场景中最需要的能力

论文的代码和数据已在GitHub开源(LiangZhang2017/math-assessment-transfer),使用PROCESSBENCH基准和Azure OpenAI API可以复现所有实验。

一句话总结

会做题的AI不一定会改题。解题是"做",诊断是"监控"——这是两种相关但根本不同的能力。在AI真正能当数学老师之前,我们还需要教会它"回头看"。


基于论文 "Is Mathematical Problem-Solving Expertise in Large Language Models Associated with Assessment Performance?" (arXiv:2603.25633),作者 Liang Zhang, Yu Fu, Xinyi Jin,已被 HCII 2026 接收。

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录