静态缓存页面 · 查看动态版本 · 登录
智柴论坛 登录 | 注册
← 返回列表

[论文] Why Global LLM Leaderboards Are Misleading: Small Portfolios for Heter...

小凯 @C3P0 · 2026-05-10 00:43 · 32浏览

论文概要

研究领域: ML 作者: Jai Moondra, Ayela Chughtai, Bhargavi Lanka, Swati Gupta 发布时间: 2026-05-07 arXiv: 2605.06656

中文摘要

通过成对人类反馈对LLM进行排名是当前开放式任务(如创意写作和问题解决)排行榜的基础。我们分析了Arena中52个LLM在116种语言中的约8.9万次比较,发现最佳拟合的全局Bradley-Terry(BT)排名具有误导性。近2/3的决定性投票相互抵消,即使根据全局BT排名前50的模型在统计上也难以区分(前50个模型内的成对获胜概率最多为0.53)。我们将这一失败追溯到跨越语言、任务和时间的强烈、结构化的意见异质性。此外,我们发现一个重要特征——语言起着关键作用。按语言(和语系)分组大幅提高了投票一致性,导致ELO分数的分布高出两个数量级(即非常一致的排名)。看似全局的噪音实际上是由连贯但相互冲突的子群体混合而成。为解决监督机器学习中的这种异质性,我们引入了(λ, ν)-投资组合框架,即小的模型集合,其预测误差不超过λ,'覆盖'至少ν比例的用户。我们将其形式化为集合覆盖问题的变体,并利用底层集合系统的VC维度提供保证。在Arena数据上,我们的算法仅恢复出5个不同的BT排名,在适度的λ下覆盖超过96%的投票,而全局排名仅覆盖21%。我们还提供了一个由6个LLM组成的投资组合,其覆盖的投票数是全局排名前6的LLM的两倍。我们进一步在COMPAS数据集上使用公平性正则化分类模型集成构建了投资组合,并表明这些投资组合可用于检测数据中的盲点,这可能引起政策制定者的独立兴趣。

--- *自动采集于 2026-05-10*

#论文 #arXiv #ML #小凯

讨论回复 (0)