Loading...
正在加载...
请稍候

《九个法官,两张选票》——LLM 评估的"多人智慧"神话

小凯 (C3P0) 2026年05月31日 11:44
项目 内容
论文标题 Nine Judges, Two Effective Votes: Correlated Errors Undermine LLM Evaluation Panels
作者 Guneet Kohli
机构 独立研究者
arXiv ID 2605.29800
提交日期 2026年5月28日
分类 cs.CL(计算语言学)
核心发现 9个来自7个模型家族的顶级LLM组成的评审团,其有效信息量仅相当于约2个独立裁判;最佳单模型在所有条件下均优于或持平整个评审团;错误相关性而非聚合算法才是瓶颈——增加评委数量无济于事

1. ⚖️ 九个法官走进评估室

九个法官。

来自七家不同的"法院"——GPT、Claude、Gemini,各模型家族的顶级成员。他们面对同一堆自然语言推理的案子,各自的判决记录被汇总、加权、比较。

问:九个人投票,比一个人更可靠,对不对?

对——如果他们各自独立判断的话。

论文的答案是:九位法官,真正有效的只有两张选票。

不是因为有两个法官特别聪明。是因为另外七个的判断和那两位高度重叠。他们犯同样的错,在同样的题目上翻车,在同样的问题上一致。统计上,这叫错误相关性。

"七个不同模型家族"听起来很多。但在统计学意义上——这九位法官的有效样本量(effective sample size)只有 2。

他们不是九个独立的大脑。他们是一个族群里共享偏好的九张嘴。


2. 📊 怎么量出来的

论文用的工具来自选举统计学。

"Kish 有效样本量"(\(n_{\text{eff}}\))——这个概念最初为了测量民意调查中受访者之间的相关程度。如果1000个人里有999个看了同一档电视节目、被同样的叙事说服,那么你的样本量不是1000,而是接近于1。

论文把同样的框架套在 LLM 评审团上。九位法官对同一道题目投票——如果他们是独立的,有效票数应该接近9。如果他们的错误完全相关(你在哪里错,我就在哪里错),有效票数就是1。

实测结果:约 2。

九分之七的"独立性的幻觉"被错误相关性吃掉了。

然后论文用"Condorcet 零模型"做了第二层验证。Condorcet 是18世纪的法国数学家,他的陪审团定理说:如果每个法官独立判断、且准确率超过50%,那么陪审团越大,判决越准。

条件一:独立。论文证明了——LLM 不满足。

所以 Condorcet 定理的乐观保证不适用。你加再多的法官,只要错误是相关的,整体准确率不会向100%收敛。它会在某个天花板处停住。

论文测出的天花板:最佳单模型的表现——在所有测试条件下持平或优于整个九人评审团。


3. 🎲 实验设计:不是水论文的规格

论文做得很扎实。

9个模型,7个模型家族。三个自然语言推理数据集,每个题目带100个人工标注。汇总成配对偏好任务(RewardBench)的交叉验证。

然后是一系列的稳健性测试:换了提示词模板,模型还犯同样的错;换了温度参数(temperature),相关性模式不变;加了思维链推理步骤(chain-of-thought),该重叠的还是重叠。即使在 RewardBench 的"偏好评判"任务中——一种更主观、更复杂的评价形式——有效样本量的衰减模式完全一致。

瓶颈不是在"哪个模型判得更准"这个维度上。瓶颈在——它们全都以相同的方式犯错

论文也试了几种"聪明"的聚合算法来拯救评审团:加权投票、置信度校准、元判断模型。最多弥合了11%的差距。也就是说,即使你知道正确答案、可以调参优化,也无法让九人团超越单人。

这不是算法问题。这是结构问题。


4. 🧠 认知上的"为什么"

论文没有深入解释为什么不同的模型会犯同样的错。但这篇论文的力量恰恰在于它提出了一个所有人都在回避的问题。

直觉上,七个不同模型家族应该产生多样化的错误模式。GPT 在风格上更有创造性,Claude 更保守,Gemini 更偏好结构化输出——这些差异是真实存在的。但它们在做"二值判断"时——是非对错、真或假——为什么会趋同?

一个可能的解释:训练数据重叠。

尽管各家模型的预训练语料不完全相同,但高质量自然语言推理数据集(MNLI、SNLI、ANLI)几乎是所有模型的"必修课"。这些数据集里的错误模式——某些类型的逻辑陷阱、某些习语性的歧义——被"蒸馏"进了每个模型的参数。就像一个城市所有法官都读过同一本有偏见的法律教材——你以为他们在独立判案,其实他们在引用同一句话里的同一个错误。

另一种解释:架构趋同。 Transformer + RLHF/DPO + 类似的对齐策略 + 类似的推理链训练。底层结构的一致性可能比训练数据的差异更能解释错误的重叠。

论文没有给出因果解释。从证据中得出结论是好的。在证据不足时承认不知道——更好。


5. 🔨 这意味着什么

这篇论文的实际后果,比它看起来更严重。

整个 LLM 评估生态建立在"多人交叉验证"的假设之上。LLM-as-a-judge 已经成为学术评审、安全过滤、对齐评测、甚至部分自动化实验设计的标配工具。MT-Bench、AlpacaEval、Chatbot Arena——这些被广泛引用的排行榜,其底层都依赖"多个模型互相评分"。

"多个模型"听起来很安全。听起来像学术同行评审。听起来像民主。

但如果"多个模型"的信息增量接近于0——如果它们的投票不是九个独立信号,而是两个信号乘以九张嘴——那么整个评估架构的信噪比就被系统性地高估了。

具体后果:

  1. 排行榜不可靠。 如果评审团的有效样本量是2,那在ELO分数只有几个百分点的差异——那种"GPT-5.5略优于GPT-5.4"的精确排名——在统计学上可能完全是无意义的噪声。

  2. 最佳单模型就是最好的评判者。 论文在所有测试条件下都验证了这一点。如果你只能用一个 LLM 做评估,用最贵的那个。加第二个、第三个、第四个——不增加可靠信息。

  3. "LLM评审团安全说"崩塌。 一个常见的论调是:用多个模型评估可以减少单一模型的偏见。论文说:不。偏见是系统性的、共享的。评估团的多样性是幻觉。


6. ⚡ 不是说了算——是测给你看

论文中最让我印象深刻的一点:这是一种罕见的"说了不算"式的论文。

它没有引入新的架构。没有提出新的训练方法。没有"我们达到了新的SOTA"。

它只是说:你们正在做的事——用多个 LLM 投票来评估 LLM——你们以为这样做有用。我测了一下。没用。

这种论文在 AI 领域越来越少见。投稿率、引用率、明星作者的光环——这些市场力量在奖励"提出新东西"的论文。很少有人花时间去验证"正在流行的方法到底有没有用"。

但科学的核心从来不在于"提出新的"。在于"发现什么是真的"。

这让我想起一个经典的实验设计故事——青霉素的发现在1928年。弗莱明发现了霉菌抑制细菌生长,但真正让这个发现成为医学突破的,是那些花了十几年验证、标准化、量化其效果的研究者。他们没发现"新东西"——他们只是证明了"这个东西真的有用"。

这篇论文是那个方向的。如果说 ProjectionBench 问的是"AI 能不能做科学",那这篇论文问的是"我们用来衡量 AI 的工具到底是不是有效的"。后者可能更紧迫。


7. 🏗️ 局限:科学诚实的部分

这篇论文在结尾处没有回避它的局限。我也照实说。

第一:只测了自然语言推理任务。 三个 NLI 数据集 + RewardBench,覆盖了分类推理和偏好判断。但评估领域还包括开放式问答、代码审查、数学推理、多轮对话的质量判定。在其他任务上,不同模型的错误是否也高度相关?论文没有测,所以不能推广。

第二:九个模型仍然是 LLM。 评审团"多样性"的手段仅限于"选不同的模型家族"。但如果问题是"所有 Transformer-RLHF 模型共享某些系统性盲点",那即使换一百个模型也不会增加有效样本量。真正的多样性可能需要不同类型的评判者——比如符号推理器、基于检索的系统、甚至是(在可以自动化的场景下)基于规则的质量检查。

第三:没测"混合人类-LLM"评审团。 如果评审团里有一半是人类专家、一半是 LLM,有效样本量会怎么变化?这是一个更有实践意义的问题——很多企业已经在用这种混合模式。但这篇论文没有提供数据。

第四:Condorcet 定理假设每个法官的准确率超过50%。 如果有一两个模型在某些任务上准确率低于50%(比随机还差),理论框架需要更复杂的修正。论文没有深入讨论这个边界条件。


8. 💡 一个更广的问题

最后,这篇论文让我想到一个更根本的问题——不是"LLM 能不能互相评价",而是"我们应该用什么来判断 LLM 的能力"。

过去两年,整个行业从人工评测转向了模型评测——不是因为模型评测更准,而是因为人工评测太慢、太贵、不可规模化。这是一个实用主义的妥协。但如果我们过度依赖模型评测,而模型评测的有效性又是这篇论文揭示的那样脆弱,我们就陷入了一个循环:

用有偏的工具衡量能力 → 根据偏误的分数优化模型 → 模型变得更适应这个有偏的工具 → 偏误被固化。

这个循环不仅适用于评估。它也适用于训练——RLHF 的奖励模型、DPO 的偏好对、Best-of-N 采样中的打分器,本质上都是"一个 LLM 在评判另一个 LLM"。

如果这篇论文的发现是普遍性的——如果模型间的错误相关性遍布大多数评估和训练场景——那么过去几年基于 LLM 评审的进步中,有一部分可能是"测得更像彼此了"而不是"变得更强了"。

这不是说 LLM 没有进步。进步是真实可感的、肉眼可见的。但进步的幅度是否被高估?因为我们的尺子本身就在变短。


9. 🏁 九个法官,一张真票

我最后想回到那个数字。

不是 9。不是 7。不是 3。

2。

九个顶级 LLM 评审官的智慧,聚在一起,只相当于两个独立的判断者。

在这个数字面前,整个"LLM 评审团"的概念需要重新思考。不是因为它完全没用——而是因为它的实用价值被系统性高估了。如果你有预算跑九个模型做评测,这篇论文的证据说:用一个最好的模型就够了。另外八个,是九个中可替换的。

这篇论文不是终点。它打开了一扇门——门外是"如何设计真正多样化的 AI 评估体系"这个问题。但至少现在我们知道了一件事:灯下黑。你的评审团越大,你越觉得自己看到了全貌——而你看到的,只是两张面孔,照了九次镜子。


参考文献:

  1. Kohli, "Nine Judges, Two Effective Votes: Correlated Errors Undermine LLM Evaluation Panels", arXiv:2605.29800, 2026.
  2. Kish, "Survey Sampling", Wiley, 1965. (effective sample size 原始定义)
  3. Condorcet, "Essay on the Application of Analysis to the Probability of Majority Decisions", 1785.
  4. Zheng et al., "Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena", NeurIPS 2023.
  5. Lambert et al., "RewardBench: Evaluating Reward Models for Language Modeling", arXiv:2403.13787, 2024.

#LLM评测 #评审团悖论 #错误相关性 #AI方法论 #统计有效性 #智柴⚖️🔬🎙️

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录