《虚假的王座——LLM 排行榜上的统计幻象》
你看了一眼排行榜。GPT-5.4 排第一,Claude Sonnet 4.6 排第二。GPT 的分数是 89.2,Claude 是 88.7。差了 0.5 分。GPT 更好。
现在你问自己一个问题:这个差距在统计上是真实的吗?
意思是——如果我们用同样难度、同样分布的另一个测试集再测一次,GPT 还会比 Claude 高吗?还是会翻转?如果测 100 次,GPT 赢多少次、Claude 赢多少次?
排行榜不回答这个问题。它只给你一个数字。你假定那个数字意味着"更好"。但在 11 个公开的 LLM 排行榜对比中,这个差距在标准的统计显著性测试下是不够的。 你看到的排名,11 个里面有 11 个可能是噪声上的排序——两个模型在能力上没有可分辨的差异,但样本量太小,噪声太大,随机性决定了谁在谁前面。
2026 年 5 月,独立研究者 Anany Kotawala 在 Resolution Diagnostics for Paired LLM Evaluation 中把这个问题钉在了一个具体的数字上:在 Open LLM Leaderboard v1 的 40 组成对比较中,11 组未能在常规统计标准下被分辨。 在 MMLU-Pro 的前十名相邻排名中,4 到 6 对不可分辨。 也就是说,前十名之间的优劣关系,有将近一半是统计学上的猜测。
| 项目 | 内容 |
|---|---|
| 论文标题 | Resolution Diagnostics for Paired LLM Evaluation |
| 作者 | Anany Kotawala |
| 机构 | 独立研究 |
| arXiv ID | 2605.30315 |
| 提交日期 | 2026年5月28日 |
| 分类 | cs.CL |
| 核心发现 | Open LLM Leaderboard v1 的 40 组成对比较中 11 组未达统计分辨率;MMLU-Pro 前十相邻排名 4-6/9 对不可分辨;常用 Cohen 样本量计算器偏差约 2 倍——业界大规模使用的统计工具系统性地低估所需样本量 |
1. 📏 排行榜是怎么做出来的
LLM 排行榜的典型工作流:给每个模型喂同一个测试集(几千道题),每道题看模型答对了没有,算一个准确率。然后按照准确率从高到低排。
问题出在这个"排"字上。
准确率是一个估计值。它的精度取决于两个东西:样本量和效应大小。样本量越大,估计越精确。效应越大(两个模型之间的差距越大),越容易被检测出来。如果你只有几百道题,而两个模型之间的真实差距是 0.3%,那你的样本量远远不够——你看到的排序极有可能在下一批几百道题上翻转。
这在统计学中是老道理。把老道理应用到 LLM 排行榜上,得出了一个新数字:11/40。
Kotawala 把常用的配对检验(paired test)框架应用到了两个公开排行榜的数据上。标准设定为 \(\alpha = 0.05\) 和统计功效 \(1-\beta = 0.8\)——这是社会科学和医学研究中最常用的显著性阈值。意思是:有 5% 的概率把实际上相等的两个模型错误地判断为"有差异"(第一类错误),同时有 80% 的概率检测到真实存在的差异(统计功效)。
在这个标准下,Open LLM Leaderboard v1 的 40 对比较中有 11 对未达到分辨率。MMLU-Pro 前十名之间的 9 对相邻排名中,4 对未达到。如果把真实的数据聚类结构(同一个测试集内的主题相关性)考虑进去,MMLU-Pro 的数字上升到 6/9。
换句话说,MMLU-Pro 前十名之间的排名,超过一半在我们通常接受的统计标准下是不确定的。
2. 🔬 为什么比你想象的更严重
读者可能会想:"好吧,11 对里面有 11 对不可分辨。那剩下的 29 对呢?"
剩下的 29 对意味着两个模型之间的差距足够大,在当前的样本量下可以被统计检测到。但这 29 对中,有多少是"刚刚好"过线——效应刚好够大,样本刚好够多——而如果测试集再小一点、或者样本的方差再大一点,就会掉回不可分辨区?
论文没有回答这个问题,但它提供了一个诊断工具:分辨率比 \(q = N / N^*\)。\(N\) 是实际样本量,\(N^*\) 是达到所需分辨率所需的最小样本量。如果 \(q < 1\),你的样本不够。如果 \(q\) 刚刚好超过 1(比如 1.05),恭喜——你差一点点就在噪声上排榜。
Kotawala 还发现了一个工具性问题。学术界常用的样本量计算工具——Cohen 1988 的经典公式、G*Power 软件、R 的 pwr 包——在应用到配对设计(同一个测试集测两个模型)时,有一个系统性的缺陷。这些工具的用户通常会手动把独立样本的样本量乘以 \((1-\rho)\) 来"修正"为配对设计,其中 \(\rho\) 是两个模型之间回答的相关性。但论文证明,这个修正在大效应或小效应极限下偏离正确值约 2 倍——意味着很多研究者计算出的 "足够大的样本量",实际上只有真正所需的一半。
如果你的样本量计算器偏差了 2 倍,你用了一半需要的样本量,然后你宣布"模型 A 优于模型 B"——你的统计工具背叛了你。
3. 🎲 多重比较和随时有效检验:两条防线都守住了吗
如果你做了 40 次统计检验——每次比较两个模型——即使没有任何两个模型之间有真实的差异,纯粹因为随机,你也预期有大约 \(40 \times 0.05 = 2\) 次会"显著"。这就是多重比较问题。
Kotawala 做了多重性校正——用控制族错误率(family-wise error rate)或错误发现率(FDR)的方法调整显著性阈值。结论不变:不可分辨的模式在多重比较校正下仍然存在。
论文还测试了一种更复杂的评估框架——随时有效的序列检验(anytime-valid sequential testing)。这种框架不预设样本量,允许你在数据到达的过程中持续监测,一旦证据强度达到阈值就停止。即使在这种更灵活的设计下,不可分辨的比较仍然不可分辨。不是因为检验不够聪明——是因为数据本身的信号太弱。
这一点是关键。你可以换检验方法、你可以换 \(\alpha\) 和 \(\beta\) 的水平、你可以用贝叶斯替代频率主义——但如果两个模型之间的真实差距是 0.2%,而你的测试集只有 1,000 道题,那么没有任何统计方法能拯救你。信息不够就是不够。
4. 📊 排行榜对你撒了哪些谎
这个发现引发的不是技术问题。是信任问题。
当一个排行榜显示"模型 A 排名第一,得分 89.2"时,它在做两个声明:(1) A 在这个测试上的准确率估计是 89.2%。(2) A 比第二名的 B 更好。第一个声明通常有合理的置信区间(虽然很少被报告)。第二个声明在本文的分析中,对于 11/40 的对比,是没有统计依据的。
排行榜的消费者——公司选模型、研究者做基线、投资者做判断——都在基于第二个声明做决策。而第二个声明在超过四分之一的情况下是站不住脚的。
Kotawala 建议的最低标准是:每一对相邻排名都应该报告分辨率比 \(q = N / N^*\)。如果 \(q < 1\),把两个模型并列——不分先后。如果 \(q \geq 1\),可以声明一个优于另一个。这个建议如此简单,以至于实现它只需要排行榜维护者在现有数据上多跑一个公式。
但行业为什么不这么做?
因为"并列"不产生新闻。"A 击败 B 登顶"产生新闻。排行榜的社交功能——引用、讨论、推文——依赖于一个清晰的、有梯度的排序。一旦大量排名变成"并列",排行榜的叙事价值就塌了。统计学上的诚实和传播学上的效率,在这里是矛盾的。
5. ❓ 诚实的不确定
这篇论文用严格的框架揭示了一个重要问题。但它也留下了开放空间。
小样本下的二阶效应有多严重?论文证明常用的样本量计算器在配对设计下偏差约 2 倍。但这个偏差是在一个特定的二阶展开下推导的。在极小的效应大小或极高的 \(\rho\) 值(模型之间回答的相关性很高)下,展开是否仍然精确?论文给了显式的二阶常数,但展开的适用范围没有被充分讨论。
其他排行榜呢?论文分析了两个排行榜。Chatbot Arena(基于人类偏好的排行榜)呢?AlpacaEval 呢?不同排行榜使用不同的评估设计和样本量,不可分辨问题的严重程度可能差异巨大。一个跨排行榜的比较分析会非常有价值——但还没有做。
分辨率比 \(q\) 是一个充分条件还是必要条件?\(q \geq 1\) 意味着样本量足够——但使用的是否是"正确"的统计检验?配对检验假定两个模型的得分差服从某种分布(通常是正态近似)。如果这个假设不成立——比如某些测试题的得分分布是非正态的或有极端异常值——\(q\) 的计算可能在高估或低估所需样本量。
6. 🏁 排名不是测量
让我回到开头。
两个模型,一个得分 89.2,一个得分 88.7。差距 0.5。
本文告诉你:如果差距是 0.5,而你的样本量不够大,你可能不知道哪个模型真的更好。你只知道在这个特定的、有限的问题集合上,模型 A 碰巧答对了比模型 B 多一点的题。
这不是在说排行榜没用。这是在说排行榜的叙事——"第一"、"第二"、"击败"、"碾压"——往往比数据能支撑的更加夸张。
Kotawala 做的,是给这个叙事热度的冷却剂。他给出的不是一个新排行榜。他给出的是一套诊断工具——分辨率比、正确的样本量公式、随时有效的监控——让你在使用排行榜时可以问一句:"这个排名,数据够不够支撑?"
如果答案是"不够"——那你看到的不是一个更好的模型。你看到的只是一个更大的噪声。
项目 内容 论文标题 Resolution Diagnostics for Paired LLM Evaluation 作者 Anany Kotawala(独立研究) arXiv ID 2605.30315 分类 cs.CL 核心贡献 (1) 首次系统量化 LLM 排行榜中成对比较的统计分辨率——Open LLM Leaderboard 11/40 不可分辨,MMLU-Pro 4-6/9 不可分辨;(2) 提出分辨率比作为排行榜透明度的最低标准;(3) 发现常用样本量计算器在配对设计下偏差约 2 倍——三个主流工具受到系统性影响;(4) 验证不可分辨模式在多重比较校正和随时有效序列检验下仍然稳健 关键局限 仅覆盖两个排行榜;小样本/高相关下的二阶近似精度未被全面评估;配对检验的分布假设在极端问题上可能失效
参考文献:
- Kotawala, "Resolution Diagnostics for Paired LLM Evaluation", arXiv:2605.30315, 2026.
- Cohen, "Statistical Power Analysis for the Behavioral Sciences", 2nd ed., Erlbaum, 1988.
- Beeching et al., "Open LLM Leaderboard", Hugging Face, 2023.
- Hendrycks et al., "Measuring Massive Multitask Language Understanding" (MMLU), ICLR 2021.
- Ramdas et al., "Admissible Anytime-Valid Sequential Inference", Statistical Science, 2023.
#LLM评估 #统计显著性 #排行榜 #分辨率诊断 #配对检验 #样本量 #智柴
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。