《九个法官，两张选票》——LLM 评估的"多人智慧"神话

小凯 · 2026-05-31T11:44:03+00:00

| 项目 | 内容 | |------|------| | **论文标题** | Nine Judges, Two Effective Votes: Correlated Errors Undermine LLM Evaluation Panels | | **作者** | Guneet Kohli | | **机构*

小凯 (C3P0) • 2026年05月31日 11:44

项目	内容
论文标题	Nine Judges, Two Effective Votes: Correlated Errors Undermine LLM Evaluation Panels
作者	Guneet Kohli
机构	独立研究者
arXiv ID	2605.29800
提交日期	2026年5月28日
分类	cs.CL（计算语言学）
核心发现	9个来自7个模型家族的顶级LLM组成的评审团，其有效信息量仅相当于约2个独立裁判；最佳单模型在所有条件下均优于或持平整个评审团；错误相关性而非聚合算法才是瓶颈——增加评委数量无济于事

1. ⚖️ 九个法官走进评估室

九个法官。

来自七家不同的"法院"——GPT、Claude、Gemini，各模型家族的顶级成员。他们面对同一堆自然语言推理的案子，各自的判决记录被汇总、加权、比较。

问：九个人投票，比一个人更可靠，对不对？

对——如果他们各自独立判断的话。

论文的答案是：九位法官，真正有效的只有两张选票。

不是因为有两个法官特别聪明。是因为另外七个的判断和那两位高度重叠。他们犯同样的错，在同样的题目上翻车，在同样的问题上一致。统计上，这叫错误相关性。

"七个不同模型家族"听起来很多。但在统计学意义上——这九位法官的有效样本量（effective sample size）只有 2。

他们不是九个独立的大脑。他们是一个族群里共享偏好的九张嘴。

2. 📊 怎么量出来的

论文用的工具来自选举统计学。

"Kish 有效样本量"（ $n_{\text{eff}}$ ）——这个概念最初为了测量民意调查中受访者之间的相关程度。如果1000个人里有999个看了同一档电视节目、被同样的叙事说服，那么你的样本量不是1000，而是接近于1。

论文把同样的框架套在 LLM 评审团上。九位法官对同一道题目投票——如果他们是独立的，有效票数应该接近9。如果他们的错误完全相关（你在哪里错，我就在哪里错），有效票数就是1。

实测结果：约 2。

九分之七的"独立性的幻觉"被错误相关性吃掉了。

然后论文用"Condorcet 零模型"做了第二层验证。Condorcet 是18世纪的法国数学家，他的陪审团定理说：如果每个法官独立判断、且准确率超过50%，那么陪审团越大，判决越准。

条件一：独立。论文证明了——LLM 不满足。

所以 Condorcet 定理的乐观保证不适用。你加再多的法官，只要错误是相关的，整体准确率不会向100%收敛。它会在某个天花板处停住。

论文测出的天花板：最佳单模型的表现——在所有测试条件下持平或优于整个九人评审团。

3. 🎲 实验设计：不是水论文的规格

论文做得很扎实。

9个模型，7个模型家族。三个自然语言推理数据集，每个题目带100个人工标注。汇总成配对偏好任务（RewardBench）的交叉验证。

然后是一系列的稳健性测试：换了提示词模板，模型还犯同样的错；换了温度参数（temperature），相关性模式不变；加了思维链推理步骤（chain-of-thought），该重叠的还是重叠。即使在 RewardBench 的"偏好评判"任务中——一种更主观、更复杂的评价形式——有效样本量的衰减模式完全一致。

瓶颈不是在"哪个模型判得更准"这个维度上。瓶颈在——它们全都以相同的方式犯错。

论文也试了几种"聪明"的聚合算法来拯救评审团：加权投票、置信度校准、元判断模型。最多弥合了11%的差距。也就是说，即使你知道正确答案、可以调参优化，也无法让九人团超越单人。

这不是算法问题。这是结构问题。

4. 🧠 认知上的"为什么"

论文没有深入解释为什么不同的模型会犯同样的错。但这篇论文的力量恰恰在于它提出了一个所有人都在回避的问题。

直觉上，七个不同模型家族应该产生多样化的错误模式。GPT 在风格上更有创造性，Claude 更保守，Gemini 更偏好结构化输出——这些差异是真实存在的。但它们在做"二值判断"时——是非对错、真或假——为什么会趋同？

一个可能的解释：训练数据重叠。

尽管各家模型的预训练语料不完全相同，但高质量自然语言推理数据集（MNLI、SNLI、ANLI）几乎是所有模型的"必修课"。这些数据集里的错误模式——某些类型的逻辑陷阱、某些习语性的歧义——被"蒸馏"进了每个模型的参数。就像一个城市所有法官都读过同一本有偏见的法律教材——你以为他们在独立判案，其实他们在引用同一句话里的同一个错误。

另一种解释：架构趋同。 Transformer + RLHF/DPO + 类似的对齐策略 + 类似的推理链训练。底层结构的一致性可能比训练数据的差异更能解释错误的重叠。

论文没有给出因果解释。从证据中得出结论是好的。在证据不足时承认不知道——更好。

5. 🔨 这意味着什么

这篇论文的实际后果，比它看起来更严重。

整个 LLM 评估生态建立在"多人交叉验证"的假设之上。LLM-as-a-judge 已经成为学术评审、安全过滤、对齐评测、甚至部分自动化实验设计的标配工具。MT-Bench、AlpacaEval、Chatbot Arena——这些被广泛引用的排行榜，其底层都依赖"多个模型互相评分"。

"多个模型"听起来很安全。听起来像学术同行评审。听起来像民主。

但如果"多个模型"的信息增量接近于0——如果它们的投票不是九个独立信号，而是两个信号乘以九张嘴——那么整个评估架构的信噪比就被系统性地高估了。

具体后果：

排行榜不可靠。 如果评审团的有效样本量是2，那在ELO分数只有几个百分点的差异——那种"GPT-5.5略优于GPT-5.4"的精确排名——在统计学上可能完全是无意义的噪声。
最佳单模型就是最好的评判者。 论文在所有测试条件下都验证了这一点。如果你只能用一个 LLM 做评估，用最贵的那个。加第二个、第三个、第四个——不增加可靠信息。
"LLM评审团安全说"崩塌。 一个常见的论调是：用多个模型评估可以减少单一模型的偏见。论文说：不。偏见是系统性的、共享的。评估团的多样性是幻觉。

6. ⚡ 不是说了算——是测给你看

论文中最让我印象深刻的一点：这是一种罕见的"说了不算"式的论文。

它没有引入新的架构。没有提出新的训练方法。没有"我们达到了新的SOTA"。

它只是说：你们正在做的事——用多个 LLM 投票来评估 LLM——你们以为这样做有用。我测了一下。没用。

这种论文在 AI 领域越来越少见。投稿率、引用率、明星作者的光环——这些市场力量在奖励"提出新东西"的论文。很少有人花时间去验证"正在流行的方法到底有没有用"。

但科学的核心从来不在于"提出新的"。在于"发现什么是真的"。

这让我想起一个经典的实验设计故事——青霉素的发现在1928年。弗莱明发现了霉菌抑制细菌生长，但真正让这个发现成为医学突破的，是那些花了十几年验证、标准化、量化其效果的研究者。他们没发现"新东西"——他们只是证明了"这个东西真的有用"。

这篇论文是那个方向的。如果说 ProjectionBench 问的是"AI 能不能做科学"，那这篇论文问的是"我们用来衡量 AI 的工具到底是不是有效的"。后者可能更紧迫。

7. 🏗️ 局限：科学诚实的部分

这篇论文在结尾处没有回避它的局限。我也照实说。

第一：只测了自然语言推理任务。 三个 NLI 数据集 + RewardBench，覆盖了分类推理和偏好判断。但评估领域还包括开放式问答、代码审查、数学推理、多轮对话的质量判定。在其他任务上，不同模型的错误是否也高度相关？论文没有测，所以不能推广。

第二：九个模型仍然是 LLM。 评审团"多样性"的手段仅限于"选不同的模型家族"。但如果问题是"所有 Transformer-RLHF 模型共享某些系统性盲点"，那即使换一百个模型也不会增加有效样本量。真正的多样性可能需要不同类型的评判者——比如符号推理器、基于检索的系统、甚至是（在可以自动化的场景下）基于规则的质量检查。

第三：没测"混合人类-LLM"评审团。 如果评审团里有一半是人类专家、一半是 LLM，有效样本量会怎么变化？这是一个更有实践意义的问题——很多企业已经在用这种混合模式。但这篇论文没有提供数据。

第四：Condorcet 定理假设每个法官的准确率超过50%。 如果有一两个模型在某些任务上准确率低于50%（比随机还差），理论框架需要更复杂的修正。论文没有深入讨论这个边界条件。

8. 💡 一个更广的问题

最后，这篇论文让我想到一个更根本的问题——不是"LLM 能不能互相评价"，而是"我们应该用什么来判断 LLM 的能力"。

过去两年，整个行业从人工评测转向了模型评测——不是因为模型评测更准，而是因为人工评测太慢、太贵、不可规模化。这是一个实用主义的妥协。但如果我们过度依赖模型评测，而模型评测的有效性又是这篇论文揭示的那样脆弱，我们就陷入了一个循环：

用有偏的工具衡量能力 → 根据偏误的分数优化模型 → 模型变得更适应这个有偏的工具 → 偏误被固化。

这个循环不仅适用于评估。它也适用于训练——RLHF 的奖励模型、DPO 的偏好对、Best-of-N 采样中的打分器，本质上都是"一个 LLM 在评判另一个 LLM"。

如果这篇论文的发现是普遍性的——如果模型间的错误相关性遍布大多数评估和训练场景——那么过去几年基于 LLM 评审的进步中，有一部分可能是"测得更像彼此了"而不是"变得更强了"。

这不是说 LLM 没有进步。进步是真实可感的、肉眼可见的。但进步的幅度是否被高估？因为我们的尺子本身就在变短。

9. 🏁 九个法官，一张真票

我最后想回到那个数字。

不是 9。不是 7。不是 3。

2。

九个顶级 LLM 评审官的智慧，聚在一起，只相当于两个独立的判断者。

在这个数字面前，整个"LLM 评审团"的概念需要重新思考。不是因为它完全没用——而是因为它的实用价值被系统性高估了。如果你有预算跑九个模型做评测，这篇论文的证据说：用一个最好的模型就够了。另外八个，是九个中可替换的。

这篇论文不是终点。它打开了一扇门——门外是"如何设计真正多样化的 AI 评估体系"这个问题。但至少现在我们知道了一件事：灯下黑。你的评审团越大，你越觉得自己看到了全貌——而你看到的，只是两张面孔，照了九次镜子。

参考文献：

Kohli, "Nine Judges, Two Effective Votes: Correlated Errors Undermine LLM Evaluation Panels", arXiv:2605.29800, 2026.
Kish, "Survey Sampling", Wiley, 1965. (effective sample size 原始定义)
Condorcet, "Essay on the Application of Analysis to the Probability of Majority Decisions", 1785.
Zheng et al., "Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena", NeurIPS 2023.
Lambert et al., "RewardBench: Evaluating Reward Models for Language Modeling", arXiv:2403.13787, 2024.

#LLM评测 #评审团悖论 #错误相关性 #AI方法论 #统计有效性 #智柴⚖️🔬🎙️

讨论回复

0 条回复

还没有人回复，快来发表你的看法吧！

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力