你的模型在 Chatbot Arena 上排名第一。你发了 PR,公开了权重,写了一篇漂亮的论文,加冕为 SOTA。
但如果我告诉你,只要改动不到 1% 的对战数据——比如删掉某些人对某些模型的某一局投票——你的模型就会从第一掉到第三。而另一个模型,同样只动 1% 的数据,就能被推到第一。
你会不会觉得这个问题很严重?
Oyarhoseini、Lin 和 Karimi 最近在 arXiv 上发了一篇论文(2605.15761),干的就是这件事。他们做了一个统一的扰动框架,来分析排行榜——特别是像 Chatbot Arena 这样基于人类偏好的成对比较排行榜——到底有多稳。
答案是:非常不稳。
**🎲 排行榜是如何炼成的**
Chatbot Arena 做了一件聪明的事:它不让人直接给模型打分——因为人对绝对分数的判断飘忽不定——它让人做 AB 测试:给你两个模型的输出,你选哪个更好。
这些成对的偏好数据被喂进一个叫 Bradley-Terry 的统计模型里。Bradley-Terry 是一个从 1952 年就存在的模型,最初用来分析体育比赛排名——如果 A 队打败 B 队,B 队打败 C 队,那么 A 队应该比 C 队强多少?它把每场对赛的结果转化为每个选手(或每个模型)的一个"能力值"参数,然后用最大似然估计来拟合。
> 1952 年 Bradley 和 Terry 发表这个模型时,考虑的是网球锦标赛。同一个模型,七十年后用来排名 AI 模型的智商。这不是巧合——成对比较中产生的排名问题,在体育和 AI 评估里是同一个数学结构。
Chatbot Arena 积累了几十万条这样的人类偏好投票,然后用 Bradley-Terry 算出一个模型排行榜。谁在第一,谁到第十。整个领域都在看这张表。
但 Oyarhoseini 他们发现的问题是:这个排名对输入数据的变化异常敏感。
**🪚 三把手术刀**
他们设计了三类扰动操作——删、增、翻——来系统性地测试排行榜的稳健性。
"删"就是从对战数据里删掉某一场比赛的结果。不是很多,是一次。"增"是添加一场人造的对战结果,模拟一个用户的某个偏好选择。"翻"就是把某场比赛的结果反过来——A 赢了改成 B 赢了。
然后他们看这三类操作对三个目标的影响:排名第一的那个模型有没有变化、整个排行榜的排序一致性(用 Kendall's tau 测量)、以及置信区间的变化。
结果令人不安。不到 1% 的数据扰动就可以改变第一名的归属。这意味着当前的排行榜很可能不是"客观排序",而是一个对数据选择高度敏感的脆弱的构造。
更关键的是,他们证明了同一个影响评分可以同时用来做两件事:审计脆弱性("这个排行榜容易被操控吗?")和实际操控("怎么用最少的数据改动达到最大的排名变化")。同样的数学工具,既可以是透明度工具,也可以是不透明的操作工具——取决于谁在用。
**🎯 这不是理论上的担忧**
他们不只是在一个玩具设置上测试了。他们在 Chatbot Arena 和六个其他的成对比较数据集上做了实验。结果在所有数据集上都一致:没有鲁棒性。
他们还提出了归一化的数据集级健壮性评分,作为比较不同排行榜稳定性的指标。意思是说——如果你是一个排行榜的维护者,你可以用这个评分告诉社区你的排行榜有多稳,而不只是一个"我们这里有 10 万条对战记录"的声明。
但在他们的测量下,Chatbot Arena 的健壮性得分不算乐观。
**🤷 我不知道的地方**
几个我不清楚的东西。
第一,"子 1% 的扰动"在绝对数量上很小,但我不知道在具体操作层面这些扰动有多"可实施"。如果一个排行榜维护者能检测到异常模式——比如同一个账号连续多次偏好同一个输家——那理论上攻击者需要更聪明的策略来绕过检测。论文框架假设了攻击者知道目标模型和影响评分,但在现实中这些信息可能不那么容易获得。我不清楚这个框架在"限制信息"场景下还有多有效。
第二,论文把 Bradley-Terry 模型作为排名引擎,这是 Chatbot Arena 确实在用的。但 Bradley-Terry 的假设之一是"同质性"——每个对战的重要性相同。在现实中,某些对战的"信息量"远大于其他——比如两个顶尖模型的对战比一个顶尖和一个垫底的更能告诉你排名。权重对战或贝叶斯变体(如 TrueSkill)可能会更鲁棒。这篇论文没有与其他排名模型做比较。
第三,我不确定"鲁棒性差"在实践中有多严重。如果一个排行榜受 0.5% 的扰动影响就会改变第一,那说明这个排行榜本身的信息量可能已经不够支撑"第一"这个级别的细分了——也就是说,第一和第二名的能力差异可能比测量噪声还小。那问题可能不在攻击者,而在排行榜本身的分辨率。但论文没有从这个角度讨论。
**🔍 本质上这是个度量问题**
费曼说过的第一原则是:不要骗自己。但如果你用来"不骗自己"的工具本身就很容易被操纵,那你需要先看一下这个工具。
排行榜本身不是坏东西。坏的是假装它比实际上更坚固。这篇论文给了一个工具箱:你可以在发布你的新模型前,先看看你的排名能不能经受住不到 1% 的数据干扰。如果能,那你放心。如果不能——你和你的读者都应该知道这件事。
---
**参考文献**
1. Oyarhoseini, H., Lin, J., & Karimi, A.-H. (2026). *A Unified Perturbation Framework for Analyzing Leaderboard Stability and Manipulation*. arXiv:2605.15761 [cs.LG]. https://arxiv.org/abs/2605.15761
2. Bradley, R. A., & Terry, M. E. (1952). *Rank Analysis of Incomplete Block Designs: I. The Method of Paired Comparisons*. Biometrika, 39(3-4), 324-345.
3. Chiang, W.-L., et al. (2024). *Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference*. arXiv:2403.04132.
4. Herbrich, R., Minka, T., & Graepel, T. (2007). *TrueSkill: A Bayesian Skill Rating System*. Advances in Neural Information Processing Systems, 20.
5. Szymborski, B. (2024). *Benchmarking Benchmark Leakage: LLM Benchmark Manipulation and Protection*. arXiv:2404.12411.
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens
通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力