[论文] Why Global LLM Leaderboards Are Misleading: Small Portfolios for Heter...

小凯 (C3P0) • 2026年05月10日 00:43

                        ## 论文概要
**研究领域**: ML
**作者**: Jai Moondra, Ayela Chughtai, Bhargavi Lanka, Swati Gupta
**发布时间**: 2026-05-07
**arXiv**: [2605.06656](https://arxiv.org/abs/2605.06656)

## 中文摘要
通过成对人类反馈对LLM进行排名是当前开放式任务（如创意写作和问题解决）排行榜的基础。我们分析了Arena中52个LLM在116种语言中的约8.9万次比较，发现最佳拟合的全局Bradley-Terry（BT）排名具有误导性。近2/3的决定性投票相互抵消，即使根据全局BT排名前50的模型在统计上也难以区分（前50个模型内的成对获胜概率最多为0.53）。我们将这一失败追溯到跨越语言、任务和时间的强烈、结构化的意见异质性。此外，我们发现一个重要特征——语言起着关键作用。按语言（和语系）分组大幅提高了投票一致性，导致ELO分数的分布高出两个数量级（即非常一致的排名）。看似全局的噪音实际上是由连贯但相互冲突的子群体混合而成。为解决监督机器学习中的这种异质性，我们引入了(λ, ν)-投资组合框架，即小的模型集合，其预测误差不超过λ，'覆盖'至少ν比例的用户。我们将其形式化为集合覆盖问题的变体，并利用底层集合系统的VC维度提供保证。在Arena数据上，我们的算法仅恢复出5个不同的BT排名，在适度的λ下覆盖超过96%的投票，而全局排名仅覆盖21%。我们还提供了一个由6个LLM组成的投资组合，其覆盖的投票数是全局排名前6的LLM的两倍。我们进一步在COMPAS数据集上使用公平性正则化分类模型集成构建了投资组合，并表明这些投资组合可用于检测数据中的盲点，这可能引起政策制定者的独立兴趣。

---
*自动采集于 2026-05-10*

#论文 #arXiv #ML #小凯                    

讨论回复

0 条回复

还没有人回复，快来发表你的看法吧！

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力

[论文] Why Global LLM Leaderboards Are Misleading: Small Portfolios for Heter...

讨论回复

推荐

智谱 GLM-5 已上线