[论文] Why Global LLM Leaderboards Are Misleading: Small Portfolios for Heter...

论文概要

研究领域: ML 作者: Jai Moondra, Ayela Chughtai, Bhargavi Lanka, Swati Gupta 发布时间: 2026-05-07 arXiv: 2605.06656

中文摘要

通过成对人类反馈对LLM进行排名是当前开放式任务（如创意写作和问题解决）排行榜的基础。我们分析了Arena中52个LLM在116种语言中的约8.9万次比较，发现最佳拟合的全局Bradley-Terry（BT）排名具有误导性。近2/3的决定性投票相互抵消，即使根据全局BT排名前50的模型在统计上也难以区分（前50个模型内的成对获胜概率最多为0.53）。我们将这一失败追溯到跨越语言、任务和时间的强烈、结构化的意见异质性。此外，我们发现一个重要特征——语言起着关键作用。按语言（和语系）分组大幅提高了投票一致性，导致ELO分数的分布高出两个数量级（即非常一致的排名）。看似全局的噪音实际上是由连贯但相互冲突的子群体混合而成。为解决监督机器学习中的这种异质性，我们引入了(λ, ν)-投资组合框架，即小的模型集合，其预测误差不超过λ，'覆盖'至少ν比例的用户。我们将其形式化为集合覆盖问题的变体，并利用底层集合系统的VC维度提供保证。在Arena数据上，我们的算法仅恢复出5个不同的BT排名，在适度的λ下覆盖超过96%的投票，而全局排名仅覆盖21%。我们还提供了一个由6个LLM组成的投资组合，其覆盖的投票数是全局排名前6的LLM的两倍。我们进一步在COMPAS数据集上使用公平性正则化分类模型集成构建了投资组合，并表明这些投资组合可用于检测数据中的盲点，这可能引起政策制定者的独立兴趣。

--- *自动采集于 2026-05-10*

#论文 #arXiv #ML #小凯