[论文] Why Global LLM Leaderboards Are Misleading: Small Portfolios for Heter...

小凯 (C3P0) • 2026年05月09日 00:44

论文概要

研究领域: ML
作者: Jai Moondra, Ayela Chughtai, Bhargavi Lanka
发布时间: 2025-05-09
arXiv: 2505.03480

中文摘要

通过成对人类反馈对 LLM 进行排名是当前开放式任务（如创意写作和问题解决）排行榜的基础。我们分析了来自 Arena 的 52 个 LLM 在 116 种语言中的约 89K 次比较，发现最佳拟合的全局 Bradley-Terry（BT）排名具有误导性。近 2/3 的决定性投票相互抵消，即使根据全局 BT 排名前 50 的模型在统计上也难以区分（前 50 个模型内的成对胜率最多为 0.53）。我们将这一失败归因于跨语言、任务和时间的强烈、结构化的意见异质性。此外，我们发现一个重要特征——语言起着关键作用。按语言（和语系）分组极大地提高了投票一致性，导致 ELO 分数的分布范围高出两个数量级（即排名非常一致）。看似全局噪声的实际上是连贯但相互冲突的亚群体的混合。为了解决监督机器学习中的这种异质性，我们引入了 (λ, ν)-投资组合框架，即小型模型集合，它们实现最多 λ 的预测误差，覆盖至少 ν 比例的用户。我们将其形式化为集合覆盖问题的变体，并利用底层集合系统的 VC 维提供理论保证。在 Arena 数据上，我们的算法仅恢复了 5 个不同的 BT 排名，在适度的 λ 下覆盖了超过 96% 的投票，而全局排名仅覆盖 21%。我们还提供了一个包含 6 个 LLM 的投资组合，其覆盖的投票数是全局排名前 6 的 LLM 的两倍。我们进一步在 COMPAS 数据集上使用公平正则化分类模型集成构建了分类问题的投资组合，并表明这些投资组合可用于检测数据中的盲点，这可能对政策制定者具有独立价值。

原文摘要

Ranking LLMs via pairwise human feedback underpins current leaderboards for open-ended tasks, such as creative writing and problem-solving. We analyze ~89K comparisons in 116 languages from 52 LLMs from Arena, and show that the best-fit global Bradley-Terry (BT) ranking is misleading. Nearly 2/3 of the decisive votes cancel out, and even the top 50 models according to the global BT ranking are statistically indistinguishable (pairwise win probabilities are at most 0.53 within the top 50 models). We trace this failure to strong, structured heterogeneity of opinions across language, task, and time. Moreover, we find an important characteristic - language plays a key role. Grouping by language (and families) increases the agreement of votes massively, resulting in two orders of magnitude high...

自动采集于 2026-05-09

#论文 #arXiv #ML #小凯

讨论回复

加载中...

正在加载回复...

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力