67个模型投票也赢不了单个最强模型?一个被忽视的"共同失败天花板"
场景:2026年的AI工程师之惑
你是一家公司的AI架构师。2026年的模型市场已经像股市一样:GPT-5.5、Claude Opus 4.8、Gemini 3.1 Pro、Grok-4.3、DeepSeek V4、Qwen3.7-Max、Kimi K2.7……67个前沿模型来自21家供应商,价格从\(30/M token到\)0.1/M token不等,能力参差不齐,每几个月就有新一代发布把旧一代打成白菜价。
你的老板说:"我们能不能把这些模型组合起来,比用单一模型更准?"
你翻开文献,发现所有人都在用一个指标做决策:** pairwise error correlation ρ**——模型之间错误的相关性。ρ低,说明模型们错的地方不一样,组合起来应该能互补。这就像投资组合理论里的"分散投资":资产之间相关性低,风险就能分散。
听起来很合理。于是你训练了一个路由器,让它在每个查询上选择最合适的模型。你试了多数投票、级联、混合智能体(Mixture-of-Agents)……结果发现:路由器几乎没捕获到任何增益,LLM-as-router(用GPT-5-mini当路由器)在100%的查询上都直接选了最强模型。
你怀疑是路由器太弱。于是换了梯度提升树、多分类预测器、甚至让LLM看完所有模型的优势描述再选——四个路由器,没有一个能超过单最强模型。
问题出在哪?
核心发现:ρ是错的指标,β才是对的
Josef Chen(KAIKAKU)在论文《When Does Combining Language Models Help? A Co-Failure Ceiling on Routing, Voting, and Mixture-of-Agents Across 67 Frontier Models》中给出了答案:整个领域都在看一个错误的数字。
论文的核心洞察可以用一个不等式概括:
任何选择策略(路由、投票、级联)的准确率上限 = 1 − β
其中 β = 所有模型在同一查询上同时答错的概率。
这个不等式很朴素:如果所有模型都错了,任何从它们答案中选一个的策略也必然错。但这个朴素的事实被整个领域忽视了——大家忙着优化ρ,却没人去测量β。
论文证明了一个更尖锐的结论:ρ在数学上无法识别β。存在两组错误分布,它们有完全相同的边际错误率和完全相同的两两相关性ρ,但β完全不同。换句话说,ρ对β是"盲"的。
\(0证书:部署前就知道组合有没有用 论文最实用的贡献是一个"免费证书"。在你训练任何路由器之前,在你花钱标注数据之前,在你做任何工程投入之前——只需要做一件事: **数一数n个查询中有多少个是所有模型都答错的,记为K。** 然后用Clopper-Pearson公式计算β的置信下界。代入 1 − β_lo − a_sb(a_sb是单最强模型的准确率),你就得到了一个置信上界:**任何选择策略能超过单最强模型的最大增益**。 如果这个数字低于你的编排开销(路由器训练成本、额外推理延迟、维护成本),那就别折腾了——没有任何策略能回本。 这是一个\)0测试。不需要训练路由器,不需要pairwise ρ,不需要任何复杂分析。只需要一个已经标注好的测试集和模型们的答案。
论文把这个工具开源为 beta_certificate.py:输入all-wrong count K/n 和单最强模型准确率,输出Clopper-Pearson认证的最大增益上界。
为什么ρ会"低估"β?——2008年CDO的幽灵
这里有个更深的问题。你可能会想:既然β这么重要,我能不能从ρ反推β?比如用一个单因子高斯Copula模型,把ρ作为输入,预测β?
论文说:不行,而且会系统性低估。
在67个模型的市场规模上,用正确校准的tetrachoric单因子模型,β的预测值仍然比观测值低约2.5倍(开放数学题上,90% CI 1.7–3.4,k=17)。也就是说,模型告诉你β=0.023,实际β=0.052。
这个低估随池子规模增大而加剧——模型越多,低估越严重。
如果你觉得这个故事耳熟,那是因为它就是2008年次贷危机的数学结构。
当年,Gaussian Copula模型被用来给CDO(担保债务凭证)定价。模型用两两违约相关性来推断"所有资产同时违约"的概率。在正常时期,这个估计看起来没问题。但在极端情况下,资产们会一起崩盘——尾部相关性远高于两两相关性。模型系统性低估了尾部风险,最终酿成金融危机。
论文明确引用了这个类比:"body-vs-tail base-correlation smile of Gaussian-copula portfolio-credit (CDO) models"。同样的数学结构,同样的陷阱,只是从次级房贷搬到了语言模型。
不同之处在于:CDO模型的低估在危机爆发前没人看见;而这篇论文在AI编排危机爆发前就把它指出来了。
格式决定一切:同一道题,β从0变成0.127
论文最漂亮的实验是一个"内容控制"实验。
研究者拿了GPQA-Diamond(研究生级科学题)的同一批题目,做了两次测试:
- 多选题版本:β ≈ 0(所有模型同时答错的情况几乎没有)
- 开放回答版本(把选项去掉):β = 0.127(约8%的题目所有模型都答错)
同一批题,同一批模型,只改了答题格式。平均准确率从0.66掉到0.51,最强模型从0.91掉到0.77。
这意味着:共同失败不是由学科内容决定的,而是由答题格式的"开放性"决定的。
多选题给了模型一个强大的先验——即使不会做,猜也有1/4概率对。这个先验把β压到了接近零。但一旦去掉选项,模型必须自己生成答案,那些真正不会的题目就暴露了——而暴露的方式是所有模型一起错。
这个发现对实践有直接含义:你的编排策略在多选题benchmark上验证有效,不代表它在真实开放场景里有效。很多论文在MMLU、ARC上报告路由增益,但真实生产环境更像开放回答——而那里β会高得多,天花板会低得多。
两种"天花板":ρ无法区分的两种困境
论文发现了两种截然不同的困境,而ρ无法区分它们:
困境一:天花板绑定(ceiling-bound)
- 场景:开放数学题、代码生成、开放回答科学题
- 特征:β > 0,所有模型在某些查询上一起错
- 后果:1 − β 天花板真实存在,任何策略都无法突破
- 数据:MATH-500上β=0.052,代码竞赛上β=0.079,开放GPQA上β=0.127
困境二:可实现性绑定(realizability-bound)
- 场景:多选题科学题(GPQA-Diamond MCQ)
- 特征:β ≈ 0,天花板很高(1 − 0 = 1),oracle增益G=0.154很大
- 后果:天花板不是问题,但可部署的路由器捕获不到这个增益
- 数据:GPQA MCQ上oracle能到1.000,但学习路由器实现增益接近0
两种困境的实践含义相同:没有强查询级路由信号,组合模型很难超过单最强模型。但原因完全不同——一个是数学天花板,一个是工程可实现性。ρ无法告诉你身处哪种困境。
67个模型的大规模实验:四个路由器全军覆没
论文在15模型池上测试了四个路由器:
| 路由器 | 捕获的G比例 |
|---|---|
| TF-IDF + 逻辑回归 | 9% (CI [-0.67, 0.50],不显著) |
| 梯度提升树(词+字符特征) | -9%(负的) |
| 多分类最佳模型预测器 | -127%(越路由越差) |
| LLM-as-router (GPT-5-mini) | 0%(100%选单最强) |
四个路由器,从简单到复杂,没有一个能显著超过单最强模型。
为什么?论文的解释很精辟:"prompt carries little signal about which model will be the one that is right when the frontier disagrees"——当前沿模型们意见不一时,查询文本本身几乎不包含"哪个模型会对"的信号。
这和"More Agents is All You Need"那类论文的乐观结论形成鲜明对比。论文直接反驳:在质量不匹配的情况下,多数投票的增益是负的(-0.10在难题上,-0.02在饱和集上)。把不等强的模型混在一起投票,弱模型的数量优势会把强模型投死。
但在质量匹配时,多样性确实有用
论文没有完全否定多样性。在质量匹配的条件下(所有模型准确率相近),低ρ确实带来增益:
- Self-MoA(同一最强模型多次采样,ρ_intra=0.80)vs 异质融合(6个准确率匹配的模型,ρ_inter=0.42)
- 在k=3(每侧3次独立采样)的公平比较下,异质融合赢Self-MoA +0.027
- 60次重采样中,100%都是正的(方向稳健,幅度受分区影响)
这验证了分散化定理的核心预测:在质量匹配时,更低的两两相关性确实买到更大的可分散增益。
但注意这个前提——"质量匹配"。在真实场景中,你手头的模型准确率参差不齐,这个条件几乎不成立。所以实践中的主要结论仍然是:naive diversity is a liability。
工程洞察:三个实用建议
1. 部署前先跑\(0证书 在投入任何路由器训练之前,数一下all-wrong count K/n,跑 `beta_certificate.py`。如果证书说最大增益低于编排开销,直接放弃。 ### 2. 监控β而不是ρ ρ是误导性的。两个模型池可以有相同的ρ但完全不同的β。直接测量β——它只需要一个已标注的测试集,不需要pairwise计算。 ### 3. 关注格式,不是学科 你的benchmark是多选题还是开放回答?这比"数学vs科学vs代码"更重要。多选题的β≈0会让你的编排策略看起来有效,但迁移到开放场景就会失效。 ## 更深的思考:AI的"共同盲区" 这篇论文让我想到一个更哲学的问题。 β测量的本质是:**所有模型共享的盲区**。在开放数学题上,67个来自21家供应商的模型,有5.2%的题目是所有人都不会做的。这些题目不是"难",而是"所有模型的训练数据、架构、对齐方式共同造就的盲区"。 这和2008年CDO危机的同构性不仅仅是数学上的。CDO危机的根源是:所有评级机构、所有投行、所有投资者共享同一套假设(房价不会全国性下跌),所以他们都低估了尾部风险。模型们的共同盲区,也是某种"共享假设"的产物——可能是共同的训练数据污染、共同的对齐偏好、共同的安全训练导致的共同拒绝模式。 论文没有展开这个类比,但它隐含着一个警告:**随着模型训练越来越同质化(大家都用RLHF、大家都用类似的数据配方),β可能会上升**。模型越多,不一定越多样——如果它们的失败模式趋同,增加模型数量只是在增加同质化的冗余。 论文最后一句话值得记住: > "On open-ended tasks the best models increasingly fail alike, so the lever is failure-mode dispersion and market churn, not peak capability or model count." 在开放任务上,最好的模型们越来越倾向于一起失败。所以真正的杠杆不是"用更强的模型"或"用更多的模型",而是"找到失败模式不同的模型"——以及"等待市场洗牌带来新的异质性"。 这和投资组合理论的结论惊人地一致:分散收益不来自资产数量,而来自资产之间的低相关性。但当所有资产在危机中一起崩盘时,分散化就失效了——因为β,而不是ρ,才是决定性的。 --- **论文**: [When Does Combining Language Models Help? A Co-Failure Ceiling on Routing, Voting, and Mixture-of-Agents Across 67 Frontier Models](https://arxiv.org/abs/2606.27288) **作者**: Josef Chen (KAIKAKU) **核心工具**: `beta_certificate.py` —\)0预部署证书,输入all-wrong count即可输出任何组合策略的最大增益上界
实验规模: 67个前沿模型,21家供应商,≈$270报告实验成本
关键数据:
- MATH-500: β=0.052, ρ低估β 2.5×
- 代码竞赛: β=0.079, ρ低估β 3.1×
- GPQA MCQ: β≈0 (realizability-bound)
- GPQA开放回答: β=0.127 (格式翻转 regime)
- 学习路由器捕获G: ≈0%
- LLM-as-router: 100%选单最强模型
#AI编排 #模型组合 #共同失败 #路由器 #投资组合理论 #CDO危机 #费曼式科普
讨论回复
加载中...正在加载回复...
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。