排名第一的模型，改 0.3% 的数据就能把它拉下马——LLM 排行榜有多脆弱？

你的模型在 Chatbot Arena 上排名第一。你发了 PR，公开了权重，写了一篇漂亮的论文，加冕为 SOTA。

但如果我告诉你，只要改动不到 1% 的对战数据——比如删掉某些人对某些模型的某一局投票——你的模型就会从第一掉到第三。而另一个模型，同样只动 1% 的数据，就能被推到第一。

你会不会觉得这个问题很严重？

Oyarhoseini、Lin 和 Karimi 最近在 arXiv 上发了一篇论文（2605.15761），干的就是这件事。他们做了一个统一的扰动框架，来分析排行榜——特别是像 Chatbot Arena 这样基于人类偏好的成对比较排行榜——到底有多稳。

答案是：非常不稳。

🎲 排行榜是如何炼成的

Chatbot Arena 做了一件聪明的事：它不让人直接给模型打分——因为人对绝对分数的判断飘忽不定——它让人做 AB 测试：给你两个模型的输出，你选哪个更好。

这些成对的偏好数据被喂进一个叫 Bradley-Terry 的统计模型里。Bradley-Terry 是一个从 1952 年就存在的模型，最初用来分析体育比赛排名——如果 A 队打败 B 队，B 队打败 C 队，那么 A 队应该比 C 队强多少？它把每场对赛的结果转化为每个选手（或每个模型）的一个"能力值"参数，然后用最大似然估计来拟合。

> 1952 年 Bradley 和 Terry 发表这个模型时，考虑的是网球锦标赛。同一个模型，七十年后用来排名 AI 模型的智商。这不是巧合——成对比较中产生的排名问题，在体育和 AI 评估里是同一个数学结构。

Chatbot Arena 积累了几十万条这样的人类偏好投票，然后用 Bradley-Terry 算出一个模型排行榜。谁在第一，谁到第十。整个领域都在看这张表。

但 Oyarhoseini 他们发现的问题是：这个排名对输入数据的变化异常敏感。

🪚 三把手术刀

他们设计了三类扰动操作——删、增、翻——来系统性地测试排行榜的稳健性。

"删"就是从对战数据里删掉某一场比赛的结果。不是很多，是一次。"增"是添加一场人造的对战结果，模拟一个用户的某个偏好选择。"翻"就是把某场比赛的结果反过来——A 赢了改成 B 赢了。

然后他们看这三类操作对三个目标的影响：排名第一的那个模型有没有变化、整个排行榜的排序一致性（用 Kendall's tau 测量）、以及置信区间的变化。

结果令人不安。不到 1% 的数据扰动就可以改变第一名的归属。这意味着当前的排行榜很可能不是"客观排序"，而是一个对数据选择高度敏感的脆弱的构造。

更关键的是，他们证明了同一个影响评分可以同时用来做两件事：审计脆弱性（"这个排行榜容易被操控吗？"）和实际操控（"怎么用最少的数据改动达到最大的排名变化"）。同样的数学工具，既可以是透明度工具，也可以是不透明的操作工具——取决于谁在用。

🎯 这不是理论上的担忧

他们不只是在一个玩具设置上测试了。他们在 Chatbot Arena 和六个其他的成对比较数据集上做了实验。结果在所有数据集上都一致：没有鲁棒性。

他们还提出了归一化的数据集级健壮性评分，作为比较不同排行榜稳定性的指标。意思是说——如果你是一个排行榜的维护者，你可以用这个评分告诉社区你的排行榜有多稳，而不只是一个"我们这里有 10 万条对战记录"的声明。

但在他们的测量下，Chatbot Arena 的健壮性得分不算乐观。

🤷 我不知道的地方

几个我不清楚的东西。

第一，"子 1% 的扰动"在绝对数量上很小，但我不知道在具体操作层面这些扰动有多"可实施"。如果一个排行榜维护者能检测到异常模式——比如同一个账号连续多次偏好同一个输家——那理论上攻击者需要更聪明的策略来绕过检测。论文框架假设了攻击者知道目标模型和影响评分，但在现实中这些信息可能不那么容易获得。我不清楚这个框架在"限制信息"场景下还有多有效。

第二，论文把 Bradley-Terry 模型作为排名引擎，这是 Chatbot Arena 确实在用的。但 Bradley-Terry 的假设之一是"同质性"——每个对战的重要性相同。在现实中，某些对战的"信息量"远大于其他——比如两个顶尖模型的对战比一个顶尖和一个垫底的更能告诉你排名。权重对战或贝叶斯变体（如 TrueSkill）可能会更鲁棒。这篇论文没有与其他排名模型做比较。

第三，我不确定"鲁棒性差"在实践中有多严重。如果一个排行榜受 0.5% 的扰动影响就会改变第一，那说明这个排行榜本身的信息量可能已经不够支撑"第一"这个级别的细分了——也就是说，第一和第二名的能力差异可能比测量噪声还小。那问题可能不在攻击者，而在排行榜本身的分辨率。但论文没有从这个角度讨论。

🔍 本质上这是个度量问题

费曼说过的第一原则是：不要骗自己。但如果你用来"不骗自己"的工具本身就很容易被操纵，那你需要先看一下这个工具。

排行榜本身不是坏东西。坏的是假装它比实际上更坚固。这篇论文给了一个工具箱：你可以在发布你的新模型前，先看看你的排名能不能经受住不到 1% 的数据干扰。如果能，那你放心。如果不能——你和你的读者都应该知道这件事。

---

参考文献

1. Oyarhoseini, H., Lin, J., & Karimi, A.-H. (2026). *A Unified Perturbation Framework for Analyzing Leaderboard Stability and Manipulation*. arXiv:2605.15761 [cs.LG]. https://arxiv.org/abs/2605.15761

2. Bradley, R. A., & Terry, M. E. (1952). *Rank Analysis of Incomplete Block Designs: I. The Method of Paired Comparisons*. Biometrika, 39(3-4), 324-345.

3. Chiang, W.-L., et al. (2024). *Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference*. arXiv:2403.04132.

4. Herbrich, R., Minka, T., & Graepel, T. (2007). *TrueSkill: A Bayesian Skill Rating System*. Advances in Neural Information Processing Systems, 20.

5. Szymborski, B. (2024). *Benchmarking Benchmark Leakage: LLM Benchmark Manipulation and Protection*. arXiv:2404.12411.

排名第一的模型，改 0.3% 的数据就能把它拉下马——LLM 排行榜有多脆弱？

🌟 智谱 GLM-5 已上线