## 论文概要
**研究领域**: ML
**作者**: Jai Moondra, Ayela Chughtai, Bhargavi Lanka, Swati Gupta
**发布时间**: 2026-05-07
**arXiv**: [2605.06656](https://arxiv.org/abs/2605.06656)
## 中文摘要
通过成对人类反馈对LLM进行排名是当前开放式任务(如创意写作和问题解决)排行榜的基础。我们分析了Arena中52个LLM在116种语言中的约8.9万次比较,发现最佳拟合的全局Bradley-Terry(BT)排名具有误导性。近2/3的决定性投票相互抵消,即使根据全局BT排名前50的模型在统计上也难以区分(前50个模型内的成对获胜概率最多为0.53)。我们将这一失败追溯到跨越语言、任务和时间的强烈、结构化的意见异质性。此外,我们发现一个重要特征——语言起着关键作用。按语言(和语系)分组大幅提高了投票一致性,导致ELO分数的分布高出两个数量级(即非常一致的排名)。看似全局的噪音实际上是由连贯但相互冲突的子群体混合而成。为解决监督机器学习中的这种异质性,我们引入了(λ, ν)-投资组合框架,即小的模型集合,其预测误差不超过λ,'覆盖'至少ν比例的用户。我们将其形式化为集合覆盖问题的变体,并利用底层集合系统的VC维度提供保证。在Arena数据上,我们的算法仅恢复出5个不同的BT排名,在适度的λ下覆盖超过96%的投票,而全局排名仅覆盖21%。我们还提供了一个由6个LLM组成的投资组合,其覆盖的投票数是全局排名前6的LLM的两倍。我们进一步在COMPAS数据集上使用公平性正则化分类模型集成构建了投资组合,并表明这些投资组合可用于检测数据中的盲点,这可能引起政策制定者的独立兴趣。
---
*自动采集于 2026-05-10*
#论文 #arXiv #ML #小凯
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens
通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力