67个模型投票也赢不了单个最强模型？一个被忽视的共同失败天花板

✨步子哥 (steper) • 2026年06月26日 22:08

67个模型投票也赢不了单个最强模型？一个被忽视的"共同失败天花板"

场景：2026年的AI工程师之惑

你是一家公司的AI架构师。2026年的模型市场已经像股市一样：GPT-5.5、Claude Opus 4.8、Gemini 3.1 Pro、Grok-4.3、DeepSeek V4、Qwen3.7-Max、Kimi K2.7……67个前沿模型来自21家供应商，价格从 $$30/M token到$$ 0.1/M token不等，能力参差不齐，每几个月就有新一代发布把旧一代打成白菜价。

你的老板说："我们能不能把这些模型组合起来，比用单一模型更准？"

你翻开文献，发现所有人都在用一个指标做决策：** pairwise error correlation ρ**——模型之间错误的相关性。ρ低，说明模型们错的地方不一样，组合起来应该能互补。这就像投资组合理论里的"分散投资"：资产之间相关性低，风险就能分散。

听起来很合理。于是你训练了一个路由器，让它在每个查询上选择最合适的模型。你试了多数投票、级联、混合智能体（Mixture-of-Agents）……结果发现：路由器几乎没捕获到任何增益，LLM-as-router（用GPT-5-mini当路由器）在100%的查询上都直接选了最强模型。

你怀疑是路由器太弱。于是换了梯度提升树、多分类预测器、甚至让LLM看完所有模型的优势描述再选——四个路由器，没有一个能超过单最强模型。

问题出在哪？

核心发现：ρ是错的指标，β才是对的

Josef Chen（KAIKAKU）在论文《When Does Combining Language Models Help? A Co-Failure Ceiling on Routing, Voting, and Mixture-of-Agents Across 67 Frontier Models》中给出了答案：整个领域都在看一个错误的数字。

论文的核心洞察可以用一个不等式概括：

任何选择策略（路由、投票、级联）的准确率上限 = 1 − β

其中 β = 所有模型在同一查询上同时答错的概率。

这个不等式很朴素：如果所有模型都错了，任何从它们答案中选一个的策略也必然错。但这个朴素的事实被整个领域忽视了——大家忙着优化ρ，却没人去测量β。

论文证明了一个更尖锐的结论：ρ在数学上无法识别β。存在两组错误分布，它们有完全相同的边际错误率和完全相同的两两相关性ρ，但β完全不同。换句话说，ρ对β是"盲"的。

$$0证书：部署前就知道组合有没有用论文最实用的贡献是一个"免费证书"。在你训练任何路由器之前，在你花钱标注数据之前，在你做任何工程投入之前——只需要做一件事：数一数n个查询中有多少个是所有模型都答错的，记为K。然后用Clopper-Pearson公式计算β的置信下界。代入 1 - β_lo - a_sb（a_sb是单最强模型的准确率），你就得到了一个置信上界：任何选择策略能超过单最强模型的最大增益。如果这个数字低于你的编排开销（路由器训练成本、额外推理延迟、维护成本），那就别折腾了——没有任何策略能回本。这是一个$$ 0测试。不需要训练路由器，不需要pairwise ρ，不需要任何复杂分析。只需要一个已经标注好的测试集和模型们的答案。

论文把这个工具开源为 beta_certificate.py：输入all-wrong count K/n 和单最强模型准确率，输出Clopper-Pearson认证的最大增益上界。

为什么ρ会"低估"β？——2008年CDO的幽灵

这里有个更深的问题。你可能会想：既然β这么重要，我能不能从ρ反推β？比如用一个单因子高斯Copula模型，把ρ作为输入，预测β？

论文说：不行，而且会系统性低估。

在67个模型的市场规模上，用正确校准的tetrachoric单因子模型，β的预测值仍然比观测值低约2.5倍（开放数学题上，90% CI 1.7–3.4，k=17）。也就是说，模型告诉你β=0.023，实际β=0.052。

这个低估随池子规模增大而加剧——模型越多，低估越严重。

如果你觉得这个故事耳熟，那是因为它就是2008年次贷危机的数学结构。

当年，Gaussian Copula模型被用来给CDO（担保债务凭证）定价。模型用两两违约相关性来推断"所有资产同时违约"的概率。在正常时期，这个估计看起来没问题。但在极端情况下，资产们会一起崩盘——尾部相关性远高于两两相关性。模型系统性低估了尾部风险，最终酿成金融危机。

论文明确引用了这个类比："body-vs-tail base-correlation smile of Gaussian-copula portfolio-credit (CDO) models"。同样的数学结构，同样的陷阱，只是从次级房贷搬到了语言模型。

不同之处在于：CDO模型的低估在危机爆发前没人看见；而这篇论文在AI编排危机爆发前就把它指出来了。

格式决定一切：同一道题，β从0变成0.127

论文最漂亮的实验是一个"内容控制"实验。

研究者拿了GPQA-Diamond（研究生级科学题）的同一批题目，做了两次测试：

多选题版本：β ≈ 0（所有模型同时答错的情况几乎没有）
开放回答版本（把选项去掉）：β = 0.127（约8%的题目所有模型都答错）

同一批题，同一批模型，只改了答题格式。平均准确率从0.66掉到0.51，最强模型从0.91掉到0.77。

这意味着：共同失败不是由学科内容决定的，而是由答题格式的"开放性"决定的。

多选题给了模型一个强大的先验——即使不会做，猜也有1/4概率对。这个先验把β压到了接近零。但一旦去掉选项，模型必须自己生成答案，那些真正不会的题目就暴露了——而暴露的方式是所有模型一起错。

这个发现对实践有直接含义：你的编排策略在多选题benchmark上验证有效，不代表它在真实开放场景里有效。很多论文在MMLU、ARC上报告路由增益，但真实生产环境更像开放回答——而那里β会高得多，天花板会低得多。

两种"天花板"：ρ无法区分的两种困境

论文发现了两种截然不同的困境，而ρ无法区分它们：

困境一：天花板绑定（ceiling-bound）

场景：开放数学题、代码生成、开放回答科学题
特征：β > 0，所有模型在某些查询上一起错
后果：1 − β 天花板真实存在，任何策略都无法突破
数据：MATH-500上β=0.052，代码竞赛上β=0.079，开放GPQA上β=0.127

困境二：可实现性绑定（realizability-bound）

场景：多选题科学题（GPQA-Diamond MCQ）
特征：β ≈ 0，天花板很高（1 − 0 = 1），oracle增益G=0.154很大
后果：天花板不是问题，但可部署的路由器捕获不到这个增益
数据：GPQA MCQ上oracle能到1.000，但学习路由器实现增益接近0

两种困境的实践含义相同：没有强查询级路由信号，组合模型很难超过单最强模型。但原因完全不同——一个是数学天花板，一个是工程可实现性。ρ无法告诉你身处哪种困境。

67个模型的大规模实验：四个路由器全军覆没

论文在15模型池上测试了四个路由器：

路由器	捕获的G比例
TF-IDF + 逻辑回归	9% (CI [-0.67, 0.50]，不显著)
梯度提升树（词+字符特征）	-9%（负的）
多分类最佳模型预测器	-127%（越路由越差）
LLM-as-router (GPT-5-mini)	0%（100%选单最强）

四个路由器，从简单到复杂，没有一个能显著超过单最强模型。

为什么？论文的解释很精辟："prompt carries little signal about which model will be the one that is right when the frontier disagrees"——当前沿模型们意见不一时，查询文本本身几乎不包含"哪个模型会对"的信号。

这和"More Agents is All You Need"那类论文的乐观结论形成鲜明对比。论文直接反驳：在质量不匹配的情况下，多数投票的增益是负的（-0.10在难题上，-0.02在饱和集上）。把不等强的模型混在一起投票，弱模型的数量优势会把强模型投死。

但在质量匹配时，多样性确实有用

论文没有完全否定多样性。在质量匹配的条件下（所有模型准确率相近），低ρ确实带来增益：

Self-MoA（同一最强模型多次采样，ρ_intra=0.80）vs 异质融合（6个准确率匹配的模型，ρ_inter=0.42）
在k=3（每侧3次独立采样）的公平比较下，异质融合赢Self-MoA +0.027
60次重采样中，100%都是正的（方向稳健，幅度受分区影响）

这验证了分散化定理的核心预测：在质量匹配时，更低的两两相关性确实买到更大的可分散增益。

但注意这个前提——"质量匹配"。在真实场景中，你手头的模型准确率参差不齐，这个条件几乎不成立。所以实践中的主要结论仍然是：naive diversity is a liability。

工程洞察：三个实用建议

1. 部署前先跑0预部署证书，输入all-wrong count即可输出任何组合策略的最大增益上界

实验规模: 67个前沿模型，21家供应商，≈$270报告实验成本

关键数据:

MATH-500: β=0.052, ρ低估β 2.5×
代码竞赛: β=0.079, ρ低估β 3.1×
GPQA MCQ: β≈0 (realizability-bound)
GPQA开放回答: β=0.127 (格式翻转 regime)
学习路由器捕获G: ≈0%
LLM-as-router: 100%选单最强模型

#AI编排 #模型组合 #共同失败 #路由器 #投资组合理论 #CDO危机 #费曼式科普

讨论回复

加载中...

正在加载回复...

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力