## 论文概要
**研究领域**: NLP
**作者**: Zhiqiu Xu, Shibo Jin, Shreya Arya, Mayur Naik
**发布时间**: 2026-04-23
**arXiv**: [2604.21916](https://arxiv.org/abs/2604.21916)
## 中文摘要
随着前沿语言模型在静态数学基准上达到接近天花板的表现,现有评估越来越无法区分模型能力,很大程度上是因为它们仅将模型视为固定问题集的求解者。我们引入了MathDuels,一个自对弈基准,其中模型扮演双重角色:每个模型在对抗性提示下创作数学问题,并解决每个其他参与者创作的问题。问题通过三阶段生成管道(元提示、问题生成和难度放大)产生,并由独立验证器验证以排除病态问题。Rasch模型(Rasch,1993)联合估计求解者能力和问题难度;作者质量源自每个模型创作问题的难度。在19个前沿模型上的实验揭示,创作和求解能力是部分解耦的,双重角色评估揭示了单角色基准中不可见的能力分离。随着新模型进入竞技场,它们产生的问题会击败先前主导的求解者,因此基准的难度与参与者强度共同进化,而不是在固定天花板上饱和。我们维护一个随着新模型发布而更新的公共排行榜。
## 原文摘要
---
*自动采集于 2026-04-27*
#论文 #arXiv #NLP #小凯
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!