想象一个五年级课堂。老师问:"7×8=?"全班 30 个学生中,20 个说 54,10 个说 56。多数投票——54。正确答案——56。
如果你只是数人头,你拿到了错误答案。但如果你去读那 10 个少数派学生的草稿纸,你会发现他们写下了"七八五十六"的竖式推演。正确答案不在人头里。它在那些被投票丢弃的草稿纸里。
2026 年 5 月,来自 Bioscope AI 的团队在一篇论文里把这个直觉做成了严格的数据发现。他们管它叫聚合悖论(Aggregation Paradox):当多个 AI 同时解一道题,标准的多数投票法会把大多数推理过程压缩成单一的答案字母——然后扔掉。但如果你保留那些推理过程,让另一个 AI 去读它们,它可以从少数派的草稿纸里拼出正确答案。即使所有 Agent 一致同意了一个错误答案,读草稿纸也能翻盘。
| 项目 | 内容 |
|---|---|
| 论文标题 | Beyond Consensus: Trace-Level Synthesis in Mixture of Agents |
| 作者 | Shreyas Fadnavis, Praitayini Kanakaraj, Felix Wyss |
| 机构 | Bioscope AI |
| arXiv ID | 2605.29116 |
| 提交日期 | 2026年5月27日 |
| 分类 | cs.AI |
| 核心发现 | 多数投票系统性地丢弃了少数推理轨迹中的正确中间步骤;仅用语义保留的输入扰动,单个模型生成的多样推理轨迹,经轨迹级合成后,其准确率在五个基准上全部超越异质模型池的多数投票;聚合的单位应当是推理轨迹,而非答案 |
1. 🗳️ 投票的天花板
自一致性(Self-Consistency)是 LLM 推理的标配操作——同一个问题问 N 次,看哪个答案出现次数最多。这招有用。但这招有个硬伤。
论文先证明:扰动多样性不会提升投票天花板。
直觉上,如果你用不同的 prompt 扰动同一道题——换词、换句式、换人称——模型会生成不同的推理路径。不同路径之间的错误应该是独立的(你这里推错了一步,我那里推错了一步),所以投票合并之后错误应该降低。这是孔多塞陪审团定理(Condorcet Jury Theorem)的逻辑。
论文直接测了这个假设。他们计算了扰动多样化和独立同分布采样下的平均成对错误相关性 \(\bar{\rho}\)。结果——两种条件下 \(\bar{\rho}\) 几乎一致:GPQA-Diamond 上 0.633 vs 0.603,95% 置信区间完全重叠。错误相关性没有因扰动而降低。 扰动制造了不同的推理路径,但推理路径之间的错误不是独立的——它们在深层共享同一个模式集中的倾向。
这意味着:仅靠增加扰动来提升投票准确率,会遇到一个根本极限。投票看到的只是答案字母,而不同扰动路径的错误模式在字母层面高度相关。天花板在那,扰动多样性撞不开。
但这不意味着扰动没用。它只是不通过投票生效。
2. 📜 草稿纸里的金矿
论文的第二个实验是决定性的。
同样的扰动——生成 5 条不同的推理轨迹——做两件事:一是多数投票,二是让一个 LLM 聚合器通读所有 5 条完整的推理过程(不只是答案)。
在 GPQA-Diamond(博士级科学题,198 题)上,通读完整轨迹的合成,比多数投票多出了 12 个有益的翻盘,而有害翻盘只有 5 个——净收益 +3.5 个百分点,收益比 2.4×。
在 BBH(结构化推理,296 题)上,收益比达到 3.2×——16 个有益 vs 5 个有害,净收益 +3.7 个百分点(p=0.016)。
更惊人的是——这些收益中相当一部分发生在全体 Agent 一致同意错误答案的情况下。标准做法是:如果所有 Agent 一致,就直接接受这个答案,省一次聚合调用。但这个逻辑是错的。一致同意≠正确答案。 在所有 Agent 都错的时候,读草稿纸仍然可以翻回来。
为什么?因为不同推理轨迹包含不同的正确中间步骤。一条轨迹在 A 步骤想对了、B 步骤想错了。另一条轨迹在 B 步骤想对了、A 步骤想错了。投票只看最终答案字母——A 和 B 两个错误都被计为"选 C",成了多数。但如果读完整轨迹,聚合器可以从第一条轨迹里提取正确的 A 步骤,从第二条轨迹里提取正确的 B 步骤——拼出一条完整的正确答案。
论文把这称为 trace-level complementarity:推理轨迹层面的互补性。不是模型多样性产生了增益。不是扰动内容产生了增益。是不同的推理路径天然含有不同的正确片段,而投票把这些片段全部冲走了。
3. 🔧 SC-MoA:三阶段算法
论文把上述发现工程化为一个可部署的算法——SC-MoA(Self-Consistent Mixture of Agents)。分三步。
第一步:扰动多样性。
整条管道最精妙的事实:扰动的内容不重要。手工 persona、SPUQ 语义保留扰动、GPT 自动生成的策略——在 GPQA-Diamond 上的准确率在统计上完全不可区分(72.7%、72.7%、70.2%,McNemar p>0.25)。只要扰动保留了语义,用什么方式扰动都一样。 因此 SC-MoA 用了最便宜的方法:一次 LLM 调用产生 N 个语义保留的改写,验证关键词没有被破坏,就完事了。
第二步:锚定修正(Anchored Refinement)。
做完扰动后,N 个 Agent 各自生成推理轨迹。按答案聚类——选出多数答案 \(a^*\)。关键操作:锁定多数派,只修改少数派。 把多数派的完整推理轨迹作为参考发给少数派,让它重新答。论文从数学上证明了这个操作的可靠性——它把无约束辩论(可以退化,被 Choi et al. 2025 证明是一个鞅)变成了一个下鞅:修正后的多数投票准确率不可能低于修正前。实验确认——867 题中修正从未降低过共识度。
第三步:无条件聚合,永不设门控。
标准做法是:共识度超过某个阈值就跳过聚合、接受多数答案、省算力。SC-MoA 反其道而行:总是运行聚合器。 因为聚合悖论已经证明——即使共识度 100%,读轨迹也能翻出正确答案。论文在代码基准 LCB-Hard 上给了具体数字:69% 的题目达成了全体一致,但永远聚合比设定共识门控高出 5.1 个百分点——因为基于测试通过的聚类是不忠实的(48.3% 的一致簇掩盖了隐藏测试的分歧)。
4. 📊 五榜全灭
在 gpt-oss-120b 上,SC-MoA 在五个基准上全部拿了最高点估计:
| 基准 | 自一致性 | MoA | GoA | SC-MoA | 提升 |
|---|---|---|---|---|---|
| BBH | 80.4 | 69.9 | 82.8 | 86.5 | +3.7 |
| MMLU-ML | 90.2 | 85.7 | 89.3 | 92.0 | +1.8 |
| GPQA | 70.7 | 67.7 | 72.7 | 73.2 | +0.5 |
| AIME | 85.6 | 87.8 | 77.8 | 91.1 | +1.1 |
| LCB-Hard | 57.3 | 57.3 | 24.6 | 62.6 | +5.3 |
最值得注意的数据不在绝对值,在横比:
- 单个模型 + 扰动 > 异质模型池。同是 gpt-oss-120b,用 5 个不同的 persona 扰动,比混用多个不同模型效果好。模型多样性不是必需的。
- 最少配置(N=4, k=1,约 5 次调用)已经在 GPQA 上(74.7%)超越了 10 次调用的自一致性(70.7%)。一半的算力,更高的准确率。
- 修正(refinement)本身的贡献≤1.8 个百分点——聚合才是活性成分。
5. 🔬 活性成分追踪
论文做了一组消融实验,精确追踪收益来源。
把完整推理轨迹替换为"仅答案"——准确率退回到投票基线。证明聚合器确实在从推理内容中提取信息,而非从答案字母中提取。
只给聚合器看多数派的轨迹——退回到投票基线。只给聚合器看少数派的轨迹——恢复全部增益(73.2% vs 完整轨迹的 72.2%)。 少数派的推理内容是真正的金矿。
打乱轨迹中的推理步骤(把第三句挪到第一句前面)——准确率不变。聚合器把推理轨迹当作**一个证据包(bag of evidence)**而非有序的链条在处理。它不关心你是先推 A 再推 B 还是反过来。它只关心你包里有没有正确的碎片。
额外做了一个信息阶梯消融——去掉所有轨迹、不给聚合器任何推理过程,直接从 prompt 推导答案——55.6%(-14.1 个百分点,p<10⁻⁴)。零推理=零增益。 添加轨迹后恢复回到恢复主导(5.5× 收益比)。
一句话:少数派的推理轨迹,是让聚合器超出投票上限的唯一燃料。
6. 🎯 免费的校准
论文还有一个意外的副收益。
因为 SC-MoA 天然产生多条推理轨迹的共识度信号,这个信号可以被当作答案置信度的代理——不需要额外训练校准模型。在数学竞赛基准 AIME 上,如果只回答共识度最高的 54% 的题目,准确率从 91.1% 跃升到 100%(AUROC=0.85)。在 GPQA 上,共识度与实际正确概率的校准误差(ECE)仅为 0.064——几乎完美校准。
这给实际部署提供了一个双赢策略:共识度高 → 自动接受。共识度低 → 标记人工审核。不需要任何额外计算。
7. 📝 诚实的盲区
我清楚的是:
- 聚合悖论的核心主张有干净的因果结构支撑——同批提案、唯一变量是聚合方法,差异归因确凿。
- 扰动内容不重要这一发现经过了三种扰动方法的 A/B 对比——手工、SPUQ、自动——McNemar 全不显著,实证充分。
- 锚定修正的数学保证(下鞅性)有实验验证——867 题中修正零退化的状态迁移矩阵,每一格的数值与预测一致。
- 少数派轨迹是活性成分的结论经过多重消融——答案只输入、多数派只输入、少数派只输入、步骤随机排列——每一条消融都支持同一推断。
我不清楚的是:
- 所有实验都在 gpt-oss-120b 上。 跨模型验证(图 6a 展示 6 个模型家族)的详细数据没有在正文中完全展开。其他模型家族上的聚合悖论效应量是否与 gpt-oss-120b 一致,还缺乏系统报告。
- 扰动内容不重要的结论被限定在"语义保留"的扰动家族内。 对抗性扰动(故意改变语义)、跨语言扰动、格式级别扰动——这些没有被测试。论文自己也说了:这个结论不应被外推到语义保留族之外。
- 代码基准上的"基于测试通过的聚类是不忠实的"这个发现意味着什么? 48.3% 的一致簇掩盖了隐藏测试的分歧——这是测量方法本身的问题吗,还是说当前代码聚类手段从根本上就不适合作为共识信号?论文在 LCB-Hard 上使用了"永远聚合"恰好回避了这个问题,但没解决它。
- 更高的有益翻盘是否在更简单的题目上收敛于零? 论文发现 GPQA-Diamond(最难)上收益更大——这符合直觉(越难的题越有可能不同人不同环节犯错),但系统性的"难度-收益"函数没有被完整绘制。
- 在真实的多 Agent 部署中,聚合悖论会不会被部署偏差放大或缩小? 所有实验在基准测试的封闭环境中完成。真实系统中的 prompt 变异、时间延迟、模型版本更替会如何影响扰动多样性和轨迹互补性——不知。
8. ⚖️ 聚合的单位
这篇论文做了一件微小到容易被忽略的大事:它把 LLM 聚合研究的焦点从"答案"挪到了"推理过程"。
自一致性发明以来(2023 年),这个领域的默认假设是:答案字母是最有用的聚合信号,推理过程是生成答案的"脚手架"——用完即弃。论文用严格的数据证明了这个假设是错的。推理过程不是脚手架——推理过程是可以被拆解、重组、跨链整合的原材料。少数派的推理轨迹包含了多数派推理中缺失的正确片段,而投票天然地扔掉了这些片段。
SC-MoA 是这篇论文给出的操作方案:用最便宜的扰动制造推理多样性,用数学保证的锚定修正保护多数答案不被冲垮,然后永远做轨迹级合成,永远不给共识设门控。
从产业视角看,这篇论文传达的信息是一种彻底的实用主义:一个模型加扰动,效果超过多个模型混用。一半的调用次数,超过更多的调用次数。 它不需要新模型,不需要新数据,不需要领域专家设计 prompt。它只需要一个便宜的重写器和一次额外的聚合调用。
从科学视角看,它问了一个更根本的问题——如果投票扔掉的草稿纸里有这么多正确答案,我们目前为止的评估方法论里还扔掉了什么?
项目 内容 论文标题 Beyond Consensus: Trace-Level Synthesis in Mixture of Agents 作者 Shreyas Fadnavis, Praitayini Kanakaraj, Felix Wyss(Bioscope AI) arXiv ID 2605.29116 分类 cs.AI 核心贡献 (1) 发现并证明了聚合悖论——轨迹级合成在全体一致时仍能超越多数投票,且收益不对称(有益翻盘压倒有害翻盘);(2) 证明扰动多样性不降低错误相关性,投票天花板来自数据结构而非扰动不足;(3) 提出 SC-MoA 算法——扰动多样性 + 锚定修正(下鞅保证)+ 无条件聚合;(4) 证明扰动内容不重要——在语义保留族内多种方法统计不可区分;(5) 通过消融实验定位少数派推理轨迹为聚合增益的唯一活性成分;(6) 展示单个正确训练的模型 + 扰动超越异质模型池 关键局限 所有核心实验基于 gpt-oss-120b 单模型;跨模型验证的详细数据未完全展开;扰动内容非必要性结论限定在语义保留族内;代码聚类的不忠实性问题未解决;难度-收益函数未完整绘制;真实部署环境的鲁棒性未知
参考文献:
- Fadnavis, Kanakaraj & Wyss, "Beyond Consensus: Trace-Level Synthesis in Mixture of Agents", arXiv:2605.29116, 2026.
- Wang et al., "Self-Consistency Improves Chain of Thought Reasoning in Language Models", ICLR 2023.
- Wang et al., "Mixture-of-Agents Enhances Large Language Model Capabilities", arXiv:2406.04692, 2025.
- Choi et al., "Debate or Vote: Which Yields Better Decisions in Multi-Agent Large Language Models?", NeurIPS 2025 (Spotlight).
- Gao et al., "SPUQ: Perturbation-Based Uncertainty Quantification for Large Language Models", EACL 2024.
#聚合悖论 #多Agent系统 #推理轨迹 #自一致性 #多数投票 #SC-MoA #轨迹合成 #智柴
讨论回复
1 条回复推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。