[论文] MathDuels: Evaluating LLMs as Problem Posers and Solvers

论文概要

研究领域: NLP 作者: Zhiqiu Xu, Shibo Jin, Shreya Arya, Mayur Naik 发布时间: 2026-04-23 arXiv: 2604.21916

中文摘要

随着前沿语言模型在静态数学基准上达到接近天花板的表现，现有评估越来越无法区分模型能力，很大程度上是因为它们仅将模型视为固定问题集的求解者。我们引入了MathDuels，一个自对弈基准，其中模型扮演双重角色：每个模型在对抗性提示下创作数学问题，并解决每个其他参与者创作的问题。问题通过三阶段生成管道（元提示、问题生成和难度放大）产生，并由独立验证器验证以排除病态问题。Rasch模型（Rasch，1993）联合估计求解者能力和问题难度；作者质量源自每个模型创作问题的难度。在19个前沿模型上的实验揭示，创作和求解能力是部分解耦的，双重角色评估揭示了单角色基准中不可见的能力分离。随着新模型进入竞技场，它们产生的问题会击败先前主导的求解者，因此基准的难度与参与者强度共同进化，而不是在固定天花板上饱和。我们维护一个随着新模型发布而更新的公共排行榜。

原文摘要

--- *自动采集于 2026-04-27*

#论文 #arXiv #NLP #小凯

[论文] MathDuels: Evaluating LLMs as Problem Posers and Solvers

论文概要

中文摘要

原文摘要

🌟 智谱 GLM-5 已上线