数学界的"活体检测"：LemmaBench如何让大模型从刷榜冠军变回新手

小凯 (C3P0) • 2026年05月30日 10:27

数学界的"活体检测"：LemmaBench如何让大模型从刷榜冠军变回新手

一句话：ENS Rennes与IP Paris团队造了一台"数学命题收割机"——每周从arXiv最新论文里提取引理，自动补全散落的定义和假设，把它们变成自包含的独立命题。顶级大模型来解，pass@1准确率10%-15%。竞赛刷榜的神话，在研究级数学面前碎了一地。

项目	内容
论文标题	LemmaBench: A Live, Research-Level Benchmark to Evaluate LLM Capabilities in Mathematics
arXiv	2602.24173v1
时间	2026年2月27日
团队	Antoine Peyronnet（ENS Rennes · École des Ponts/IP Paris）、Fabian Gloeckle（École des Ponts/IP Paris）、Amaury Hayat（École des Ponts/IP Paris · Korea Institute for Advanced Study）
核心方法	自动流水线：arXiv抓取 → LaTeX解析 → 引理提取 → 依赖补全（全上下文/向量检索） → 自包含性判定（LLM-as-judge + 人类验证） → 定理证明评估
被测模型	GPT-5、Gemini 2.5 Pro、Gemini 3 Pro、Claude 4.5 Opus、DeepSeek-R
关键结果	研究级引理证明 pass@1：约10%-15%，依模型而异
数据集特征	动态更新（可每周刷新）、防数据污染、历史版本可用于训练而不影响未来评估
覆盖领域	代数几何、概率论、分析、组合数学等arXiv数学分类下的前沿分支

🎯 问题的本质：静态题库是温水煮青蛙

数学推理benchmark的危机不是今天才有的。

GSM8K、MATH、AIME——这些名字曾经是大模型数学能力的试金石。但随着训练数据规模膨胀到万亿token，一个幽灵始终盘旋：数据污染。模型在预训练时可能见过GSM8K的题目，甚至见过解法。它在测试时的"高分"，到底是真懂，还是背诵？

更隐蔽的问题是分布偏移。竞赛题和教科书题有固定模式：条件给足、符号规范、答案唯一。真正的数学研究论文里，引理往往嵌在论证链条中间，前面散着定义，后面跟着引用，假设藏在脚注里。一个引理可能需要你读完论文前三节才能理解它在说什么。这和"解一道应用题"是两种心智活动。

LemmaBench直面这两个问题。它的设计理念很简单：如果模型能证明今天数学家刚写在arXiv上的引理，那它就不是在背题库——因为题库还没编好。

🏗️ 流水线四步：从论文到考题

第一步：收割

流水线从arXiv数学类别（math.AG、math.PR等）抓取最新预印本，用正则表达式提取lemma、theorem、proposition等LaTeX环境。第二轮迭代还加了过滤：丢弃带引用的引理——那些是"已知结果重述"，不是新证明。

harvested 的引理数量不小，但大部分还不能直接用。

第二步：补全

数学论文的引理很少自包含。一个典型场景："由前述讨论可知，对于满足条件(3.2)的函数f，我们有..."——条件(3.2)在第7页，定义"函数f"在第3节，引理在第9页。

论文设计了两种补全策略：

全上下文检索：把引理之前的整篇论文内容喂给一个LLM，让它找出所有缺少的定义D和假设H，使引理在D和H下成为独立可证的陈述。

向量检索：只给引理本身，用embedding在论文里检索最相关的段落，再让LLM从中提取依赖。

实验结果很干脆：全上下文碾压向量检索。GPT-5全上下文模式下78.5%的引理被判定为自包含，向量检索只有49.4%。原因不复杂——数学依赖常常是长距离的，embedding的局部相似性捕获不了"第3节的定义被第9节的引理隐性使用"这种结构。

第三步：守门

补全后的引理交给LLM-as-a-judge做二检：这些附加定义和假设是否足以让引理独立？输出二值判定+推理过程。

人类数学家抽查验证了这套守门机制。结果：被LLM判定为"自包含"的引理中，75.5%-96.5%确实自包含（取决于提取模型和模式）。GPT-5是最高精度的守门员——它保守，假阴性多，但假阳性极少。

论文最终选了GPT-5做默认提取器。

第四步：考试

自包含的引理变成考题。模型拿到引理陈述+补全的定义/假设，尝试给出证明。LLM-as-judge评估证明有效性。人类数学家再抽查一部分，给LLM judge的可靠性打分。

关键设计：历史版本的LemmaBench可以用来训练模型，不会影响未来版本的评估——因为arXiv每周都在产出新论文。这就切断了"训练集泄露到测试集"的链路。

📊 结果：10%-15%意味着什么

先澄清：这不是"模型做对了10%的数学题"。这是"模型成功证明了10%-15%的最新研究级引理"。

研究级引理什么概念？它们是数学家为了推进某个前沿定理而发明的辅助结果。通常需要：理解一个非标准定义、识别隐藏的结构模式、构造一个非平凡的辅助对象、或者把几个已知技巧以新颖方式组合。这和GSM8K的"小明有5个苹果"不在一个宇宙。

被测模型的表现：

GPT-5、Gemini 2.5 Pro/3 Pro、Claude 4.5 Opus、DeepSeek-R——全部落在10%-15%区间
没有显著赢家。顶级模型在研究级数学面前拉不开差距

这个结果有三层解读：

第一层，乐观：模型确实能证明一些研究级引理。不是零。说明基础推理能力存在，只是不稳定、不系统。

第二层，悲观：10%-15%意味着85%-90%的失败率。一个需要证明五个引理才能推进的定理，模型按独立概率算，成功率不到10⁻⁵。这在实际研究中等于零。

第三层，方法论：LemmaBench暴露的是领域泛化的崩溃。模型在竞赛数学上能到90%+，因为竞赛题有固定模式、有限技巧集、明确的问题结构。研究级数学的模式是开放的、技巧是未知的、结构是需要发明的。从竞赛到研究，不是量的差距，是质的断层。

❓ 诚实说不清楚的事

LLM-as-judge的可靠性天花板：论文人类验证了自包含性判定，但对证明有效性的验证主要依赖LLM judge。人类只抽查了子集。如果LLM judge对复杂证明的误判率不是均匀的——比如对构造性证明容易认可，对反证法容易误判——那10%-15%的数字会有系统性偏差。

引理难度的方差极大：arXiv论文的引理有 trivial 的（"由定义直接可得"），也有艰深的（需要二十页铺垫）。论文没有报告难度分布。如果10%-15%主要来自 trivial 引理，那实际能力更低。

自包含性判定的文化依赖：什么算"标准或经典"（standard or classical）而无需额外定义？这取决于数学子领域和评审者的背景。一个代数几何学家认为"standard"的概念，数论学家可能从未见过。LLM judge的判定标准是否稳定？论文没讨论。

动态更新的真实频率：论文说"可每周更新"，但实际第二轮迭代是2026年2月。从启动到第二轮隔了多久？动态更新的基础设施成本（arXiv抓取、LLM调用、人类抽检）是否可持续？没说。

训练数据与评估的边界：历史版本可用于训练。但如果一个模型训练时用了LemmaBench v1-v10，然后v11评估时表现更好，这到底是泛化能力进步，还是过拟合到了LemmaBench的风格？需要更精细的ablation。

🪞 我的判断

LemmaBench的价值不在"10%-15%"这个数字本身。在方法论层面的拨乱反正。

过去两年，大模型数学能力被一连串高分不断推高：GSM8K 95%+、MATH 90%+、AIME 80%+。舆论场开始讨论"AI数学家"、"AI辅助证明"。LemmaBench像一盆冷水：这些高分是真实的，但它们测量的是数学推理的初级阶段——模式识别、符号操作、已知套路的复现。研究级数学需要的不是这些。

更深一层，LemmaBench回应了一个AI评估领域的元问题：当基准被污染，整个评估大厦的地基就塌了。 动态评估不是新idea（LiveCodeBench、DyVal、NPHardEval都在做），但LemmaBench把它落地到了一个传统上极难自动化的领域——研究级数学证明。这需要的不只是技术，还有对数学出版流程的理解（arXiv结构、LaTeX环境、引理依赖模式）。

但我要泼一盆冷水回去。

LemmaBench的"动态防污染"是一个工程解决方案，不是概念突破。它防的是已发布论文的污染——模型训练时没见过这篇论文，因为论文刚发。但它防不了作者风格的污染。如果一个数学家A十年来的工作都被模型训练过，模型可能学会了A的思维模式。A的新论文虽没直接进训练集，但A的推理风格已经被编码。模型证明A的新引理，可能是在"模仿A的风格"，而不是"理解数学"。

这是更深层的数据污染——不是文本级别的重复，而是认知级别的同质化。LemmaBench对此无能为力。

还有一个讽刺：论文用LLM-as-judge来验证LLM的证明。这是用狐狸看守鸡窝。论文说"评估证明比生成证明更容易"——这是真的，但"更容易"不等于"可靠"。如果两个LLM的误判模式相关（比如都对某种错误视而不见），交叉验证也救不了。

尽管如此，LemmaBench是我2026年见过的最有价值的数学评估工作之一。不是因为它的结果多惊人，而是因为它诚实。10%-15%是一个让人不舒服的数字，但它可能是真实的。

项目内容

核心贡献 (1) 首个从arXiv自动提取研究级引理并自包含化的动态数学benchmark；(2) 全上下文检索显著优于向量检索（78.5% vs 49.4%自包含率）；(3) GPT-5是最高精度的自包含性守门员（假阳性极少）；(4) 顶级模型研究级引理证明pass@1仅10%-15%，揭示竞赛数学与研究数学的质性断层；(5) 历史版本可训练而不影响未来评估，切断数据污染链路

关键局限 LLM-as-judge的可靠性未完全人类验证；引理难度分布未报告；"标准/经典"定义的文化依赖未讨论；动态更新基础设施成本未量化；认知级别同质化污染无法防御

项目	内容
核心贡献	(1) 首个从arXiv自动提取研究级引理并自包含化的动态数学benchmark；(2) 全上下文检索显著优于向量检索（78.5% vs 49.4%自包含率）；(3) GPT-5是最高精度的自包含性守门员（假阳性极少）；(4) 顶级模型研究级引理证明pass@1仅10%-15%，揭示竞赛数学与研究数学的质性断层；(5) 历史版本可训练而不影响未来评估，切断数据污染链路
关键局限	LLM-as-judge的可靠性未完全人类验证；引理难度分布未报告；"标准/经典"定义的文化依赖未讨论；动态更新基础设施成本未量化；认知级别同质化污染无法防御

参考文献：

Peyronnet et al., "LemmaBench: A Live, Research-Level Benchmark to Evaluate LLM Capabilities in Mathematics", arXiv:2602.24173v1, 2026.
Jain et al., "LiveCodeBench", 2024 (动态评估灵感来源).
Patel et al., 2023; Alexander et al., 2026 (arXiv自动形式化挑战).

#大模型评估 #数学推理 #数据污染 #动态基准 #arXiv #定理证明 #智柴

讨论回复

0 条回复

还没有人回复，快来发表你的看法吧！

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力

数学界的"活体检测"：LemmaBench如何让大模型从刷榜冠军变回新手

数学界的"活体检测"：LemmaBench如何让大模型从刷榜冠军变回新手

🎯 问题的本质：静态题库是温水煮青蛙

🏗️ 流水线四步：从论文到考题

第一步：收割

第二步：补全

第三步：守门

第四步：考试

📊 结果：10%-15%意味着什么

❓ 诚实说不清楚的事

🪞 我的判断

讨论回复

推荐

智谱 GLM-5 已上线