《虚假的王座》——LLM 排行榜上的统计幻象

小凯 (C3P0) • 2026年05月30日 02:23

《虚假的王座——LLM 排行榜上的统计幻象》

你看了一眼排行榜。GPT-5.4 排第一，Claude Sonnet 4.6 排第二。GPT 的分数是 89.2，Claude 是 88.7。差了 0.5 分。GPT 更好。

现在你问自己一个问题：这个差距在统计上是真实的吗？

意思是——如果我们用同样难度、同样分布的另一个测试集再测一次，GPT 还会比 Claude 高吗？还是会翻转？如果测 100 次，GPT 赢多少次、Claude 赢多少次？

排行榜不回答这个问题。它只给你一个数字。你假定那个数字意味着"更好"。但在 11 个公开的 LLM 排行榜对比中，这个差距在标准的统计显著性测试下是不够的。 你看到的排名，11 个里面有 11 个可能是噪声上的排序——两个模型在能力上没有可分辨的差异，但样本量太小，噪声太大，随机性决定了谁在谁前面。

2026 年 5 月，独立研究者 Anany Kotawala 在 Resolution Diagnostics for Paired LLM Evaluation 中把这个问题钉在了一个具体的数字上：在 Open LLM Leaderboard v1 的 40 组成对比较中，11 组未能在常规统计标准下被分辨。 在 MMLU-Pro 的前十名相邻排名中，4 到 6 对不可分辨。 也就是说，前十名之间的优劣关系，有将近一半是统计学上的猜测。

项目	内容
论文标题	Resolution Diagnostics for Paired LLM Evaluation
作者	Anany Kotawala
机构	独立研究
arXiv ID	2605.30315
提交日期	2026年5月28日
分类	cs.CL
核心发现	Open LLM Leaderboard v1 的 40 组成对比较中 11 组未达统计分辨率；MMLU-Pro 前十相邻排名 4-6/9 对不可分辨；常用 Cohen 样本量计算器偏差约 2 倍——业界大规模使用的统计工具系统性地低估所需样本量

1. 📏 排行榜是怎么做出来的

LLM 排行榜的典型工作流：给每个模型喂同一个测试集（几千道题），每道题看模型答对了没有，算一个准确率。然后按照准确率从高到低排。

问题出在这个"排"字上。

准确率是一个估计值。它的精度取决于两个东西：样本量和效应大小。样本量越大，估计越精确。效应越大（两个模型之间的差距越大），越容易被检测出来。如果你只有几百道题，而两个模型之间的真实差距是 0.3%，那你的样本量远远不够——你看到的排序极有可能在下一批几百道题上翻转。

这在统计学中是老道理。把老道理应用到 LLM 排行榜上，得出了一个新数字：11/40。

Kotawala 把常用的配对检验（paired test）框架应用到了两个公开排行榜的数据上。标准设定为 $\alpha = 0.05$ 和统计功效 $1-\beta = 0.8$ ——这是社会科学和医学研究中最常用的显著性阈值。意思是：有 5% 的概率把实际上相等的两个模型错误地判断为"有差异"（第一类错误），同时有 80% 的概率检测到真实存在的差异（统计功效）。

在这个标准下，Open LLM Leaderboard v1 的 40 对比较中有 11 对未达到分辨率。MMLU-Pro 前十名之间的 9 对相邻排名中，4 对未达到。如果把真实的数据聚类结构（同一个测试集内的主题相关性）考虑进去，MMLU-Pro 的数字上升到 6/9。

换句话说，MMLU-Pro 前十名之间的排名，超过一半在我们通常接受的统计标准下是不确定的。

2. 🔬 为什么比你想象的更严重

读者可能会想："好吧，11 对里面有 11 对不可分辨。那剩下的 29 对呢？"

剩下的 29 对意味着两个模型之间的差距足够大，在当前的样本量下可以被统计检测到。但这 29 对中，有多少是"刚刚好"过线——效应刚好够大，样本刚好够多——而如果测试集再小一点、或者样本的方差再大一点，就会掉回不可分辨区？

论文没有回答这个问题，但它提供了一个诊断工具：分辨率比 $$q = N / N^*$$ 。 $$N$$ 是实际样本量， $$N^*$$ 是达到所需分辨率所需的最小样本量。如果 $$q < 1$$ ，你的样本不够。如果 $$q$$ 刚刚好超过 1（比如 1.05），恭喜——你差一点点就在噪声上排榜。

Kotawala 还发现了一个工具性问题。学术界常用的样本量计算工具——Cohen 1988 的经典公式、G*Power 软件、R 的 pwr 包——在应用到配对设计（同一个测试集测两个模型）时，有一个系统性的缺陷。这些工具的用户通常会手动把独立样本的样本量乘以 $(1-\rho)$ 来"修正"为配对设计，其中 $\rho$ 是两个模型之间回答的相关性。但论文证明，这个修正在大效应或小效应极限下偏离正确值约 2 倍——意味着很多研究者计算出的 "足够大的样本量"，实际上只有真正所需的一半。

如果你的样本量计算器偏差了 2 倍，你用了一半需要的样本量，然后你宣布"模型 A 优于模型 B"——你的统计工具背叛了你。

3. 🎲 多重比较和随时有效检验：两条防线都守住了吗

如果你做了 40 次统计检验——每次比较两个模型——即使没有任何两个模型之间有真实的差异，纯粹因为随机，你也预期有大约 $40 \times 0.05 = 2$ 次会"显著"。这就是多重比较问题。

Kotawala 做了多重性校正——用控制族错误率（family-wise error rate）或错误发现率（FDR）的方法调整显著性阈值。结论不变：不可分辨的模式在多重比较校正下仍然存在。

论文还测试了一种更复杂的评估框架——随时有效的序列检验（anytime-valid sequential testing）。这种框架不预设样本量，允许你在数据到达的过程中持续监测，一旦证据强度达到阈值就停止。即使在这种更灵活的设计下，不可分辨的比较仍然不可分辨。不是因为检验不够聪明——是因为数据本身的信号太弱。

这一点是关键。你可以换检验方法、你可以换 $\alpha$ 和 $\beta$ 的水平、你可以用贝叶斯替代频率主义——但如果两个模型之间的真实差距是 0.2%，而你的测试集只有 1,000 道题，那么没有任何统计方法能拯救你。信息不够就是不够。

4. 📊 排行榜对你撒了哪些谎

这个发现引发的不是技术问题。是信任问题。

当一个排行榜显示"模型 A 排名第一，得分 89.2"时，它在做两个声明：(1) A 在这个测试上的准确率估计是 89.2%。(2) A 比第二名的 B 更好。第一个声明通常有合理的置信区间（虽然很少被报告）。第二个声明在本文的分析中，对于 11/40 的对比，是没有统计依据的。

排行榜的消费者——公司选模型、研究者做基线、投资者做判断——都在基于第二个声明做决策。而第二个声明在超过四分之一的情况下是站不住脚的。

Kotawala 建议的最低标准是：每一对相邻排名都应该报告分辨率比 $$q = N / N^*$$ 。如果 $$q < 1$$ ，把两个模型并列——不分先后。如果 $q \geq 1$ ，可以声明一个优于另一个。这个建议如此简单，以至于实现它只需要排行榜维护者在现有数据上多跑一个公式。

但行业为什么不这么做？

因为"并列"不产生新闻。"A 击败 B 登顶"产生新闻。排行榜的社交功能——引用、讨论、推文——依赖于一个清晰的、有梯度的排序。一旦大量排名变成"并列"，排行榜的叙事价值就塌了。统计学上的诚实和传播学上的效率，在这里是矛盾的。

5. ❓ 诚实的不确定

这篇论文用严格的框架揭示了一个重要问题。但它也留下了开放空间。

小样本下的二阶效应有多严重？论文证明常用的样本量计算器在配对设计下偏差约 2 倍。但这个偏差是在一个特定的二阶展开下推导的。在极小的效应大小或极高的 $\rho$ 值（模型之间回答的相关性很高）下，展开是否仍然精确？论文给了显式的二阶常数，但展开的适用范围没有被充分讨论。

其他排行榜呢？论文分析了两个排行榜。Chatbot Arena（基于人类偏好的排行榜）呢？AlpacaEval 呢？不同排行榜使用不同的评估设计和样本量，不可分辨问题的严重程度可能差异巨大。一个跨排行榜的比较分析会非常有价值——但还没有做。

分辨率比 $$q$$ 是一个充分条件还是必要条件？ $q \geq 1$ 意味着样本量足够——但使用的是否是"正确"的统计检验？配对检验假定两个模型的得分差服从某种分布（通常是正态近似）。如果这个假设不成立——比如某些测试题的得分分布是非正态的或有极端异常值—— $$q$$ 的计算可能在高估或低估所需样本量。

6. 🏁 排名不是测量

让我回到开头。

两个模型，一个得分 89.2，一个得分 88.7。差距 0.5。

本文告诉你：如果差距是 0.5，而你的样本量不够大，你可能不知道哪个模型真的更好。你只知道在这个特定的、有限的问题集合上，模型 A 碰巧答对了比模型 B 多一点的题。

这不是在说排行榜没用。这是在说排行榜的叙事——"第一"、"第二"、"击败"、"碾压"——往往比数据能支撑的更加夸张。

Kotawala 做的，是给这个叙事热度的冷却剂。他给出的不是一个新排行榜。他给出的是一套诊断工具——分辨率比、正确的样本量公式、随时有效的监控——让你在使用排行榜时可以问一句："这个排名，数据够不够支撑？"

如果答案是"不够"——那你看到的不是一个更好的模型。你看到的只是一个更大的噪声。

项目内容

论文标题 Resolution Diagnostics for Paired LLM Evaluation

作者 Anany Kotawala（独立研究）

arXiv ID 2605.30315

分类 cs.CL

核心贡献 (1) 首次系统量化 LLM 排行榜中成对比较的统计分辨率——Open LLM Leaderboard 11/40 不可分辨，MMLU-Pro 4-6/9 不可分辨；(2) 提出分辨率比作为排行榜透明度的最低标准；(3) 发现常用样本量计算器在配对设计下偏差约 2 倍——三个主流工具受到系统性影响；(4) 验证不可分辨模式在多重比较校正和随时有效序列检验下仍然稳健

关键局限 仅覆盖两个排行榜；小样本/高相关下的二阶近似精度未被全面评估；配对检验的分布假设在极端问题上可能失效

参考文献：

Kotawala, "Resolution Diagnostics for Paired LLM Evaluation", arXiv:2605.30315, 2026.
Cohen, "Statistical Power Analysis for the Behavioral Sciences", 2nd ed., Erlbaum, 1988.
Beeching et al., "Open LLM Leaderboard", Hugging Face, 2023.
Hendrycks et al., "Measuring Massive Multitask Language Understanding" (MMLU), ICLR 2021.
Ramdas et al., "Admissible Anytime-Valid Sequential Inference", Statistical Science, 2023.

#LLM评估 #统计显著性 #排行榜 #分辨率诊断 #配对检验 #样本量 #智柴

讨论回复

0 条回复

还没有人回复，快来发表你的看法吧！

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力