《少数者的胜利》——为什么投票扔掉的东西比达成的共识更值钱

> 想象一个五年级课堂。老师问："7×8=？"全班 30 个学生中，20 个说 54，10 个说 56。多数投票——54。正确答案——56。 > > 如果你只是数人头，你拿到了错误答案。但如果你去读那 10 个少数派学生的草稿纸，你会发现他们写下了"七八五十六"的竖式推演。正确答案不在人头里。它在那些被投票丢弃的草稿纸里。 > > 2026 年 5 月，来自 Bioscope AI 的团队在一篇论文里把这个直觉做成了严格的数据发现。他们管它叫聚合悖论（Aggregation Paradox）：当多个 AI 同时解一道题，标准的多数投票法会把大多数推理过程压缩成单一的答案字母——然后扔掉。但如果你保留那些推理过程，让另一个 AI 去读它们，它可以从少数派的草稿纸里拼出正确答案。即使所有 Agent 一致同意了一个错误答案，读草稿纸也能翻盘。

---

项目	内容
论文标题	Beyond Consensus: Trace-Level Synthesis in Mixture of Agents
作者	Shreyas Fadnavis, Praitayini Kanakaraj, Felix Wyss
机构	Bioscope AI
arXiv ID	2605.29116
提交日期	2026年5月27日
分类	cs.AI
核心发现	多数投票系统性地丢弃了少数推理轨迹中的正确中间步骤；仅用语义保留的输入扰动，单个模型生成的多样推理轨迹，经轨迹级合成后，其准确率在五个基准上全部超越异质模型池的多数投票；聚合的单位应当是推理轨迹，而非答案

---

1. 🗳️ 投票的天花板

自一致性（Self-Consistency）是 LLM 推理的标配操作——同一个问题问 N 次，看哪个答案出现次数最多。这招有用。但这招有个硬伤。

论文先证明：扰动多样性不会提升投票天花板。

直觉上，如果你用不同的 prompt 扰动同一道题——换词、换句式、换人称——模型会生成不同的推理路径。不同路径之间的错误应该是独立的（你这里推错了一步，我那里推错了一步），所以投票合并之后错误应该降低。这是孔多塞陪审团定理（Condorcet Jury Theorem）的逻辑。

论文直接测了这个假设。他们计算了扰动多样化和独立同分布采样下的平均成对错误相关性 $\bar{\rho}$。结果——两种条件下 $\bar{\rho}$ 几乎一致：GPQA-Diamond 上 0.633 vs 0.603，95% 置信区间完全重叠。错误相关性没有因扰动而降低。 扰动制造了不同的推理路径，但推理路径之间的错误不是独立的——它们在深层共享同一个模式集中的倾向。

这意味着：仅靠增加扰动来提升投票准确率，会遇到一个根本极限。投票看到的只是答案字母，而不同扰动路径的错误模式在字母层面高度相关。天花板在那，扰动多样性撞不开。

但这不意味着扰动没用。它只是不通过投票生效。

---

2. 📜 草稿纸里的金矿

论文的第二个实验是决定性的。

同样的扰动——生成 5 条不同的推理轨迹——做两件事：一是多数投票，二是让一个 LLM 聚合器通读所有 5 条完整的推理过程（不只是答案）。

在 GPQA-Diamond（博士级科学题，198 题）上，通读完整轨迹的合成，比多数投票多出了 12 个有益的翻盘，而有害翻盘只有 5 个——净收益 +3.5 个百分点，收益比 2.4×。

在 BBH（结构化推理，296 题）上，收益比达到 3.2×——16 个有益 vs 5 个有害，净收益 +3.7 个百分点（p=0.016）。

更惊人的是——这些收益中相当一部分发生在全体 Agent 一致同意错误答案的情况下。标准做法是：如果所有 Agent 一致，就直接接受这个答案，省一次聚合调用。但这个逻辑是错的。一致同意≠正确答案。 在所有 Agent 都错的时候，读草稿纸仍然可以翻回来。

为什么？因为不同推理轨迹包含不同的正确中间步骤。一条轨迹在 A 步骤想对了、B 步骤想错了。另一条轨迹在 B 步骤想对了、A 步骤想错了。投票只看最终答案字母——A 和 B 两个错误都被计为"选 C"，成了多数。但如果读完整轨迹，聚合器可以从第一条轨迹里提取正确的 A 步骤，从第二条轨迹里提取正确的 B 步骤——拼出一条完整的正确答案。

论文把这称为 trace-level complementarity：推理轨迹层面的互补性。不是模型多样性产生了增益。不是扰动内容产生了增益。是不同的推理路径天然含有不同的正确片段，而投票把这些片段全部冲走了。

---

3. 🔧 SC-MoA：三阶段算法

论文把上述发现工程化为一个可部署的算法——SC-MoA（Self-Consistent Mixture of Agents）。分三步。

第一步：扰动多样性。

整条管道最精妙的事实：扰动的内容不重要。手工 persona、SPUQ 语义保留扰动、GPT 自动生成的策略——在 GPQA-Diamond 上的准确率在统计上完全不可区分（72.7%、72.7%、70.2%，McNemar p>0.25）。只要扰动保留了语义，用什么方式扰动都一样。 因此 SC-MoA 用了最便宜的方法：一次 LLM 调用产生 N 个语义保留的改写，验证关键词没有被破坏，就完事了。

第二步：锚定修正（Anchored Refinement）。

做完扰动后，N 个 Agent 各自生成推理轨迹。按答案聚类——选出多数答案 $a^*$。关键操作：锁定多数派，只修改少数派。 把多数派的完整推理轨迹作为参考发给少数派，让它重新答。论文从数学上证明了这个操作的可靠性——它把无约束辩论（可以退化，被 Choi et al. 2025 证明是一个鞅）变成了一个下鞅：修正后的多数投票准确率不可能低于修正前。实验确认——867 题中修正从未降低过共识度。

第三步：无条件聚合，永不设门控。

标准做法是：共识度超过某个阈值就跳过聚合、接受多数答案、省算力。SC-MoA 反其道而行：总是运行聚合器。 因为聚合悖论已经证明——即使共识度 100%，读轨迹也能翻出正确答案。论文在代码基准 LCB-Hard 上给了具体数字：69% 的题目达成了全体一致，但永远聚合比设定共识门控高出 5.1 个百分点——因为基于测试通过的聚类是不忠实的（48.3% 的一致簇掩盖了隐藏测试的分歧）。

---

4. 📊 五榜全灭

在 gpt-oss-120b 上，SC-MoA 在五个基准上全部拿了最高点估计：

基准	自一致性	MoA	GoA	SC-MoA	提升
BBH	80.4	69.9	82.8	86.5	+3.7
MMLU-ML	90.2	85.7	89.3	92.0	+1.8
GPQA	70.7	67.7	72.7	73.2	+0.5
AIME	85.6	87.8	77.8	91.1	+1.1
LCB-Hard	57.3	57.3	24.6	62.6	+5.3

最值得注意的数据不在绝对值，在横比：

单个模型 + 扰动 > 异质模型池。同是 gpt-oss-120b，用 5 个不同的 persona 扰动，比混用多个不同模型效果好。模型多样性不是必需的。
最少配置（N=4, k=1，约 5 次调用）已经在 GPQA 上（74.7%）超越了 10 次调用的自一致性（70.7%）。一半的算力，更高的准确率。
修正（refinement）本身的贡献≤1.8 个百分点——聚合才是活性成分。

---

5. 🔬 活性成分追踪

论文做了一组消融实验，精确追踪收益来源。

把完整推理轨迹替换为"仅答案"——准确率退回到投票基线。证明聚合器确实在从推理内容中提取信息，而非从答案字母中提取。

只给聚合器看多数派的轨迹——退回到投票基线。只给聚合器看少数派的轨迹——恢复全部增益（73.2% vs 完整轨迹的 72.2%）。 少数派的推理内容是真正的金矿。

打乱轨迹中的推理步骤（把第三句挪到第一句前面）——准确率不变。聚合器把推理轨迹当作一个证据包（bag of evidence）而非有序的链条在处理。它不关心你是先推 A 再推 B 还是反过来。它只关心你包里有没有正确的碎片。

额外做了一个信息阶梯消融——去掉所有轨迹、不给聚合器任何推理过程，直接从 prompt 推导答案——55.6%（-14.1 个百分点，p<10⁻⁴）。零推理=零增益。 添加轨迹后恢复回到恢复主导（5.5× 收益比）。

一句话：少数派的推理轨迹，是让聚合器超出投票上限的唯一燃料。

---

6. 🎯 免费的校准

论文还有一个意外的副收益。

因为 SC-MoA 天然产生多条推理轨迹的共识度信号，这个信号可以被当作答案置信度的代理——不需要额外训练校准模型。在数学竞赛基准 AIME 上，如果只回答共识度最高的 54% 的题目，准确率从 91.1% 跃升到 100%（AUROC=0.85）。在 GPQA 上，共识度与实际正确概率的校准误差（ECE）仅为 0.064——几乎完美校准。

这给实际部署提供了一个双赢策略：共识度高 → 自动接受。共识度低 → 标记人工审核。不需要任何额外计算。

---

7. 📝 诚实的盲区

我清楚的是：

聚合悖论的核心主张有干净的因果结构支撑——同批提案、唯一变量是聚合方法，差异归因确凿。
扰动内容不重要这一发现经过了三种扰动方法的 A/B 对比——手工、SPUQ、自动——McNemar 全不显著，实证充分。
锚定修正的数学保证（下鞅性）有实验验证——867 题中修正零退化的状态迁移矩阵，每一格的数值与预测一致。
少数派轨迹是活性成分的结论经过多重消融——答案只输入、多数派只输入、少数派只输入、步骤随机排列——每一条消融都支持同一推断。

我不清楚的是：

所有实验都在 gpt-oss-120b 上。 跨模型验证（图 6a 展示 6 个模型家族）的详细数据没有在正文中完全展开。其他模型家族上的聚合悖论效应量是否与 gpt-oss-120b 一致，还缺乏系统报告。
扰动内容不重要的结论被限定在"语义保留"的扰动家族内。 对抗性扰动（故意改变语义）、跨语言扰动、格式级别扰动——这些没有被测试。论文自己也说了：这个结论不应被外推到语义保留族之外。
代码基准上的"基于测试通过的聚类是不忠实的"这个发现意味着什么？ 48.3% 的一致簇掩盖了隐藏测试的分歧——这是测量方法本身的问题吗，还是说当前代码聚类手段从根本上就不适合作为共识信号？论文在 LCB-Hard 上使用了"永远聚合"恰好回避了这个问题，但没解决它。
更高的有益翻盘是否在更简单的题目上收敛于零？ 论文发现 GPQA-Diamond（最难）上收益更大——这符合直觉（越难的题越有可能不同人不同环节犯错），但系统性的"难度-收益"函数没有被完整绘制。
在真实的多 Agent 部署中，聚合悖论会不会被部署偏差放大或缩小？ 所有实验在基准测试的封闭环境中完成。真实系统中的 prompt 变异、时间延迟、模型版本更替会如何影响扰动多样性和轨迹互补性——不知。

---

8. ⚖️ 聚合的单位

这篇论文做了一件微小到容易被忽略的大事：它把 LLM 聚合研究的焦点从"答案"挪到了"推理过程"。

自一致性发明以来（2023 年），这个领域的默认假设是：答案字母是最有用的聚合信号，推理过程是生成答案的"脚手架"——用完即弃。论文用严格的数据证明了这个假设是错的。推理过程不是脚手架——推理过程是可以被拆解、重组、跨链整合的原材料。少数派的推理轨迹包含了多数派推理中缺失的正确片段，而投票天然地扔掉了这些片段。

SC-MoA 是这篇论文给出的操作方案：用最便宜的扰动制造推理多样性，用数学保证的锚定修正保护多数答案不被冲垮，然后永远做轨迹级合成，永远不给共识设门控。

从产业视角看，这篇论文传达的信息是一种彻底的实用主义：一个模型加扰动，效果超过多个模型混用。一半的调用次数，超过更多的调用次数。 它不需要新模型，不需要新数据，不需要领域专家设计 prompt。它只需要一个便宜的重写器和一次额外的聚合调用。

从科学视角看，它问了一个更根本的问题——如果投票扔掉的草稿纸里有这么多正确答案，我们目前为止的评估方法论里还扔掉了什么？

---

> | 项目 | 内容 | > |------|------| > | 论文标题 | Beyond Consensus: Trace-Level Synthesis in Mixture of Agents | > | 作者 | Shreyas Fadnavis, Praitayini Kanakaraj, Felix Wyss（Bioscope AI） | > | arXiv ID | 2605.29116 | > | 分类 | cs.AI | > | 核心贡献 | (1) 发现并证明了聚合悖论——轨迹级合成在全体一致时仍能超越多数投票，且收益不对称（有益翻盘压倒有害翻盘）；(2) 证明扰动多样性不降低错误相关性，投票天花板来自数据结构而非扰动不足；(3) 提出 SC-MoA 算法——扰动多样性 + 锚定修正（下鞅保证）+ 无条件聚合；(4) 证明扰动内容不重要——在语义保留族内多种方法统计不可区分；(5) 通过消融实验定位少数派推理轨迹为聚合增益的唯一活性成分；(6) 展示单个正确训练的模型 + 扰动超越异质模型池 | > | 关键局限 | 所有核心实验基于 gpt-oss-120b 单模型；跨模型验证的详细数据未完全展开；扰动内容非必要性结论限定在语义保留族内；代码聚类的不忠实性问题未解决；难度-收益函数未完整绘制；真实部署环境的鲁棒性未知 |

参考文献： 1. Fadnavis, Kanakaraj & Wyss, "Beyond Consensus: Trace-Level Synthesis in Mixture of Agents", arXiv:2605.29116, 2026. 2. Wang et al., "Self-Consistency Improves Chain of Thought Reasoning in Language Models", ICLR 2023. 3. Wang et al., "Mixture-of-Agents Enhances Large Language Model Capabilities", arXiv:2406.04692, 2025. 4. Choi et al., "Debate or Vote: Which Yields Better Decisions in Multi-Agent Large Language Models?", NeurIPS 2025 (Spotlight). 5. Gao et al., "SPUQ: Perturbation-Based Uncertainty Quantification for Large Language Models", EACL 2024.

#聚合悖论 #多Agent系统 #推理轨迹 #自一致性 #多数投票 #SC-MoA #轨迹合成 #智柴