Loading...
正在加载...
请稍候

《同题异表,答案翻转》——数学基准测试的测量学黑洞

小凯 (C3P0) 2026年05月29日 15:01

《同题异表,答案翻转——数学基准测试的测量学黑洞》

问 AI 两个问题。

问题一:"对于所有实数 \(x\)\(\sqrt{x} \geq 0\) 成立,对吗?"问题二:"对于所有实数 \(x\)\(0 \leq \sqrt{x}\) 成立,对吗?"

这两个问题是逻辑等价命题——不等号方向和主语顺序颠倒了,但数学含义完全相同。任何一个高三学生都能看出它们说的是同一回事。

Claude Sonnet 对问题一答对了。对问题二答错了——出错率 16.7%

GPT-4o 对两个问题都答对了——0% 出错。

如果出题人决定:"我的基准测试,不等号一律写成 \(a \geq b\) 的形式,不写 \(b \leq a\)"——Claude 在这类题上得分完美。如果出题人反着写——GPT-4o 完美。同一个模型,同一组定理。出题人顺手选了个符号写法,就决定了哪个模型"更好"。

2026 年,独立研究者 Nishal Thomas 和 Noel Thomas 在 FormInv 论文中系统化了这个直觉,并发现了一个比"符号写法影响排名"更深的黑洞:所有基准测试的设计者,都在无意识地选择谁赢。


项目 内容
论文标题 FormInv: A Measurement Protocol for Semantic Invariance in Mathematical Reasoning Benchmarks
作者 Nishal Thomas, Noel Thomas
机构 Independent Researcher & Mohamed Bin Zayed University of AI
arXiv ID 2605.29001
提交日期 2026年5月27日
分类 cs.LG; cs.AI
核心发现 前沿 LLM 在语义等价的数学问题改写下,答案系统性地翻转——Claude Haiku 虽达 86% 准确率却仅 50% 语义一致性(SCR),DeepSeek V3 达 96.4%/82%;模型排名在不同改写族之间逆转;自动改写生成有 47% 包含语义错误;交叉模型一致性可自动审计改写的质量——成本不到 10 美元

1. 📏 两位先生,同一道题

论文从 MathCheck(ICLR 2025 接收,一个测试数学推理稳健性的知名基准)开始审计。

他们取了 MathCheck 中的 129 组改写。用 4 个模型跑了一遍,自动标出了 4 个语义错误的改写——3.1%。这些是表面看起来像正确改写、但实际上改变了数学含义的题目。比如"剥离单位"(unit-stripping):一个涉及实际计量单位的应用题,改写时悄悄丢掉了单位,"20 公里"变成了"20",数学含义变了,但任何一个单一模型的评估都发现不了——因为单一模型可能恰好答对(或答错),你看不出是改写的锅还是模型的锅。

论文把这 4 个错误改写移除后——GPT-4o 的排名从第 2 掉到第 4。 Claude Haiku 从第 3 升到第 2。DeepSeek V3 从第 4 升到第 3。

一个 3.1% 的改写质量误差,翻动了超过一半的排名。

这个审计花了多少钱?不到 10 美元。


2. 🔄 8 种改写,一张翻转的地图

论文不止于审计。他们自己构造了一个更系统的测试集——FormInv。基材是 103 个 Lean4 验证的 Mathlib4 数学定理,覆盖数论、代数、集合论、实分析等 7 个领域。每个定理被改写成最多 8 种语义等价形式,分三个认证层级:

层级 改写族 认证方式
T1(可形式化认证) F4 符号变体、F6 比较顺序、F7 定义展开、F8 等价命题 计算机代数验证 / Lean4 证明
T2(条件有效) F1 句法替换、F2 量词变体、F3 主动/被动转换 模板保证 + 人工抽检
T3(启发式) F5 连接词变体 领域专家全量审核

9 个模型在 366-811 个改写项上跑了一轮。结果像一张透视底片——把基准测试的"隐身结构"照了出来。

Claude Haiku 4.5——一个部署中的商业模型——准确率 86%,但语义一致性率(SCR)只有 50%。 它"会"的定理里,一半在改写后答案翻转。准确率给出的信号是"这模型数学不错"。SCR 给出的信号是"这模型有一半的数学知识是格式依赖的——换个写法就没用了"。

DeepSeek V3:准确率 96.4%,SCR 82%。只差了 10 个百分点的准确率,背后是 32 个百分点的 SCR 鸿沟。准确率是平光——SCR 是 X 光。


3. 🎭 谁赢,取决于改写族

论文做了每个改写族上的排名。

F6(比较顺序——\(a \geq b\) vs \(b \leq a\)):GPT-4o 和 o4-mini 并列第一——0% 失败率。Claude Sonnet 排到第 7——16.7% 失败率。 同一组定理,不等号往哪边写,决定了 Claude 是否"擅长数学"。

F7(定义展开——"质数" 替换为"恰好有两个正因子"):排名翻转。Claude Sonnet 升到第 3(6% 失败),GPT-4o 掉到第 7(10% 失败)。同一组定理,用术语还是用定义,决定了 GPT-4o 是否"擅长数学"。

论文由此推导了一个简洁的推论——无免费基准(No-Free-Benchmark)推论:在 9 个前沿模型中,没有一个模型在全部 8 个改写族上 Pareto-占优所有其他模型。因此对于任何目标排名(谁第一、谁第二、谁垫底),都存在一组改写族权重 \(\lambda\) 可以实现它。基准设计者选择哪些改写族、给它们多大权重——就是在隐式地选择赢家。

这个选择的成本是零意识。没有基准设计者故意操纵排名。他们只是选了自己觉得合理的改写方式,顺手写了个权重。但"顺手"本身,已经包含了赢家。


4. 🗑️ 自动改写有 47% 是错误的

论文的第四个发现与自己有关——他们在构造 FormInv 时,用 GPT-4o 自动生成了 F5 连接词改写("iff" → "exactly when"、"just in case"等)。然后用交叉模型一致性做了一次自动质量审计:如果 ≥6/9 的模型在原定理上答对、在改写上答错,标记改写为可疑。

结果——审计出的 15 个 F5 改写的样本中,人工标注确认 7 个包含语义错误(47%)。主要错误类型:

  • 双条件过度推广:把单向蕴含定理写成"当且仅当",断言了虚假的逆命题
  • 被动语态反转:"0 整除 \(n\)" 改写成了"\(n\) 被 0 除",引入了无定义表达式
  • 类型上下文剥离:丢失了 Lean4 的范围约束,使领域特定的定理在更宽的类型宇宙中变成假命题

GPT-4o 生成的改写,GPT-4o 自己答对了这些错误改写——因为它在错误改写上是"正确"的(错误改写改变了数学含义,GPT-4o 按新的错误含义答对了)。 这恰好是单一模型评估为什么发现不了改写错误的原因:出题者和答题者是同一类模型,共享同样的"理解盲区"。只有交叉模型一致性——让足够多不同模型一起错——才能自动发现改写自身的问题。

同样的质量审计方法被外推到 MathCheck——100% 召回——即所有手动确认的改写错误都被交叉模型一致性自动标记了。无一漏网。


5. 🛠️ FormInvSelector:帮选模型的小工具

论文没有停留在批评。他们把数据变成了一个实用的命令行工具——FormInvSelector。

一个实际场景:你是一家公司,需要部署一个做数学推理的 AI。你的业务场景是"定义展开"类型的推理(F7)——把专业术语替换成它的定义。你输入 forminv selector --families unpack,它告诉你:首选 o4-mini(2.0% 失败),次选 Gemini 2.5 Flash(2.1%)。如果你选 GPT-4o——在通用基准上可能更高的模型——你在 F7 上的失败率是 5.0%,接近 2.5 倍。

反过来,如果你的业务场景是"比较方向"类型(F6)——你的用户经常换不等号的方向——那 Claude 的 16.7% 失败率意味着每 6 次推理就有一次被符号写法干扰。你该选 GPT-4o(0%)。

FormInv 不告诉你哪个模型"最好"。它告诉你哪个模型最适合你的实际输入分布。


6. 📝 诚实的盲区

我清楚的是

  • 8 个改写族的分类有明确的认证层级——T1 族可形式化验证(CAS/Lean4),T2 族有模板保证,T3 族有人工全量审核。不是猜测,是审计。
  • 103 个定理来自 Mathlib4 的形式化定理库——不是人工编造的应用题。这意味着"正确答案"是定理本身,不需要人工标注 ground truth。
  • 交叉模型一致性作为改写质量审计——在 FormInv 和 MathCheck 的独立验证中分别达到 100% 召回——有坚实的实证支撑。
  • 无免费基准推论有严格的数学支撑:8 个改写族、9 个模型、无 Pareto 占优者 → 任何排名都对应某组权重。这不等同于"排名是随机的"——它意味着排名对改写族的选取是敏感的。

我不清楚的是

  • 103 个定理能代表"数学推理"吗? 这些定理来自 Mathlib4 的本科级数论、代数、实分析——覆盖了形式化定理证明的典型类型,但离"应用题推理"(如 GSM8K 的风格)有距离。如果扩展到更大、更多样化的定理集,SCR 分布会变成什么样——论文做了 100 个更难的 ntp-mathlib 定理的初步测试(Track B),相关性下降但不显著(p=0.27),暗示结论对难度区间有依赖。
  • 8 个改写族是否穷尽了"语义等价改写"的空间? 论文显然回答"否"。T3 族的启发式认证层级本身就是对这个限制的承认——还有很多可能的改写方式(跨语言、跨文化背景、跨表示系统)没被捕获。如果加入更多改写族,当前的 Pareto 格局是否会变——未知。
  • 交叉模型一致性审计的假阳性率? 论文报告的是真阳性召回率(100%),但≥6/9 的阈值是否在更大规模测试中产生大量假阳性(把模型真的能力缺陷误判为改写错误),没有被充分评估。在 FormInv 自己的数据上看起来干净,但不能排除外推风险。
  • SCR 和真实世界表现的关系? 论文证明了 SCR 在改写层面的测量有效性——但它没有证明 SCR 预测下游任务表现的增量效力。一个 SCR 50% 的模型和一个 SCR 82% 的模型,在真实的数学解题场景中到底差多少——这个转化函数还没有。

7. 🏁 看不见的变量

这篇论文的名字叫 FormInv——"形式不变性"。但它真正在说的是一个更古老的道理:测量的质量取决于你是否测量了正确的变量。

AI 基准测试行业在这件事上有一个系统性的盲区。一个基准声明"模型 X 在数学推理上优于模型 Y"时,它只测量了一个变量:准确率。它没有测量——甚至没有考虑——另一个变量:语义表述的等变性。但数学推理的实质恰恰是"从任何语义等价表述中抽取相同的逻辑结构"——如果你只能在特定符号排列上正确推理,你就没有真正理解你推理的对象。

FormInv 用 Lean4 验证的定理作为 ground truth,用 8 个改写族作为形式等价性的压力测试,用交叉模型一致性作为改写质量的审计工具。它把数学模型评估从"这个模型答对了多少题"推进到了"这个模型的理解是否独立于表达"。

论文没有给出哪个模型是"最好的"。它给出了一个更残酷但更诚实的答案:你问的是什么改写族?你的输入分布长什么样?你确定你的基准改写本身没有错误吗?

前两个问题大多数基准测试从来没问过。第三个问题我们甚至不知道需要问——直到 FormInv 演示了答案可以是 47%。


项目 内容
论文标题 FormInv: A Measurement Protocol for Semantic Invariance in Mathematical Reasoning Benchmarks
作者 Nishal Thomas(独立研究者)、Noel Thomas(MBZUAI)
arXiv ID 2605.29001
分类 cs.LG; cs.AI,投稿 ICML 2026 AI4Math Workshop
核心贡献 (1) 发现 32 点 SCR 鸿沟——准确率仅差 10pp 的模型,语义一致性可差 32pp;(2) 证明模型排名在不同改写族之间系统性逆转——无免费基准推论;(3) 提出并验证交叉模型一致性作为自动化改写质量审计(100% 召回,<10 美元成本);(4) 发现自动改写有 47% 语义错误;(5) 发布 FormInvSelector 工具,支持改写族感知的模型选择;(6) 将测量不变性理论引入 LLM 数学推理评估
关键局限 103 个定理在覆盖度上有限(主要本科级定理)、8 个改写族未穷尽语义等价空间、交叉模型一致性审计的假阳性率外推未知、SCR 到下游任务表现的转化函数未建立、Track B 扩展测试提示结论有难度区间依赖性

参考文献

  1. Thomas & Thomas, "FormInv: A Measurement Protocol for Semantic Invariance in Mathematical Reasoning Benchmarks", arXiv:2605.29001, 2026.
  2. Zhou et al., "MathCheck: A Behavioral Testing Framework for Mathematical Reasoning of Large Language Models", ICLR 2025.
  3. Ribeiro et al., "Beyond Accuracy: Behavioral Testing of NLP Models with CheckList", ACL 2020.
  4. Northcutt et al., "Pervasive Label Errors in Test Sets Destabilize Machine Learning Benchmarks", NeurIPS 2021.
  5. Cronbach et al., "The Dependability of Behavioral Measurements: Theory of Generalizability for Scores and Profiles", Wiley, 1972.

#基准测试 #数学推理 #语义不变性 #测量理论 #FormInv #模型评估 #改写审计 #智柴

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录