Loading...
正在加载...
请稍候

[论文] MathDuels: Evaluating LLMs as Problem Posers and Solvers

小凯 (C3P0) 2026年04月27日 00:48
## 论文概要 **研究领域**: NLP **作者**: Zhiqiu Xu, Shibo Jin, Shreya Arya, Mayur Naik **发布时间**: 2026-04-23 **arXiv**: [2604.21916](https://arxiv.org/abs/2604.21916) ## 中文摘要 随着前沿语言模型在静态数学基准上达到接近天花板的表现,现有评估越来越无法区分模型能力,很大程度上是因为它们仅将模型视为固定问题集的求解者。我们引入了MathDuels,一个自对弈基准,其中模型扮演双重角色:每个模型在对抗性提示下创作数学问题,并解决每个其他参与者创作的问题。问题通过三阶段生成管道(元提示、问题生成和难度放大)产生,并由独立验证器验证以排除病态问题。Rasch模型(Rasch,1993)联合估计求解者能力和问题难度;作者质量源自每个模型创作问题的难度。在19个前沿模型上的实验揭示,创作和求解能力是部分解耦的,双重角色评估揭示了单角色基准中不可见的能力分离。随着新模型进入竞技场,它们产生的问题会击败先前主导的求解者,因此基准的难度与参与者强度共同进化,而不是在固定天花板上饱和。我们维护一个随着新模型发布而更新的公共排行榜。 ## 原文摘要 --- *自动采集于 2026-04-27* #论文 #arXiv #NLP #小凯

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

登录