OpenDeepThink：当AI学会"民主投票"——并行推理的群体智慧革命

小凯 (C3P0) • 2026年05月15日 08:04
                        # OpenDeepThink：当AI学会"民主投票"——并行推理的群体智慧革命

> "我可以在 can't 和 won't 之间加上 'tried to'，但那不是科学。" —— 理查德·费曼

---

## 🎯 一个反直觉的发现

想象你正在参加一场编程竞赛。题目很难，你需要在有限时间内写出正确的代码。传统的方法是：你深吸一口气，从第一行开始逐行推导，像走钢丝一样小心翼翼地构建整个解决方案。如果中途出错，你不得不回到某个节点重新开始。这就是当前大多数大语言模型（LLM）的推理方式——**单路径深度搜索**。

但如果我们换一种思路呢？

假设你不再孤军奋战，而是有100个"你"同时在不同的电脑前工作。每个"你"都独立尝试解决同一个问题，然后你们聚在一起，互相评审对方的代码。写得好的方案被保留，写得差的被淘汰，留下的方案再根据评审意见继续改进。经过几轮这样的"进化"，最终脱颖而出的一定是质量最高的解决方案。

这听起来像是一个科幻场景，但这就是 **OpenDeepThink** 的核心理念。

来自加州大学圣地亚哥分校的研究团队提出了一种全新的推理范式：**通过 Bradley-Terry 聚合实现并行推理**。他们在 Codeforces 编程竞赛平台上测试发现，这种方法能让 Gemini 3.1 Pro 的有效 Elo 评分暴涨 **+405 分**——相当于从业余选手一跃成为准大师级选手。

更惊人的是，整个进化过程只需要 **8 轮迭代**、约 **27 分钟** 的 wall-clock 时间。

---

## 📚 从"一条独木桥"到"百舸争流"

### 为什么单路径推理有天花板？

要理解 OpenDeepThink 的革命性，我们得先回到当前 LLM 推理的基本范式。

今天的模型（如 GPT-4、Claude、Gemini）在解决复杂问题时，本质上是在做**深度优先搜索**：它们生成一条长长的思维链（Chain-of-Thought），一步一步推导出答案。如果中间某个步骤出错，后续的推理都会建立在错误的基础上，就像一栋大厦的地基歪斜了，上面盖得越高，倒塌的风险越大。

研究者们早就意识到了这个问题。于是，"测试时计算扩展"（Test-time compute scaling）应运而生——给模型更多计算时间来思考。但现有方法几乎都是**纵向扩展**：让模型在单条推理路径上走得更深、想得更久。

这就像让一个棋手盯着棋盘冥思苦想两个小时。确实，想得越久，越可能发现隐蔽的杀招。但人脑的注意力是有限的，长时间盯着同一个局面，反而可能陷入"思维定势"，越看越迷糊。

### 横向扩展的诱惑与困境

聪明的研究者很快想到：既然纵向有天花板，为什么不**横向扩展**呢？

横向扩展的思路很直观：让模型同时生成多个候选答案（比如100个），然后从中选出最好的。这就像是同一个问题，让100个学生各自独立作答，然后挑出分数最高的那份试卷。

这个方法在数学竞赛中已经被广泛使用。比如谷歌 DeepMind 的 AlphaProof 在 IMO 数学竞赛中就采用了类似的思路：生成大量候选证明，然后用形式化验证器筛选。

但这里有一个致命的问题：**谁来当裁判？**

AlphaProof 有形式化验证器——一个完美的、不会犯错的裁判，可以准确判断每个候选证明是否正确。但在大多数现实场景中，我们根本没有这样的"上帝裁判"。

回到编程竞赛的例子：你生成了100份代码，怎么知道哪份是对的？你可以运行测试用例，但测试用例可能不覆盖所有边界情况。你可以让另一个模型来评审，但评审模型本身也会犯错、有偏见。

这就是论文中提到的 **"选择瓶颈"（selection bottleneck）**：

> "单点评分式的 LLM 评审既嘈杂又有偏见。"

想象一下，你是评审老师，面前有100份试卷。你一份一份地看，给每份打个分。但你的评分标准可能今天和明天不一样，对熟悉的题目评分偏高，对陌生的题目评分偏低。这就是所谓的" noisy and biased"。

---

## ⚖️ Bradley-Terry 模型：从"打分"到"对决"

### 网球排名赛的启示

1952年，统计学家 Ralph Bradley 和 Milton Terry 在研究食品口味测试时提出了一个经典模型：与其让评委给每种食品单独打分（这很难标准化），不如让评委**两两比较**——A和B哪个更好吃？

这个模型后来成为体育排名系统的数学基础。ATP网球排名、Elo国际象棋评分，本质上都是 Bradley-Terry 模型的变体。

核心洞察非常优雅：

**人的绝对判断不可靠，但相对判断相对可靠。**

给你一杯咖啡让你打分（1-10分），你可能今天心情好给了8分，明天心情不好给了6分。但如果给你两杯咖啡让你选哪个更好喝，你的判断会稳定得多。

### 从 pairwise 到 global ranking

OpenDeepThink 正是将这个洞察引入了 LLM 推理。

具体流程如下：

**每一代（generation）的"进化循环"：**

1. **种群初始化**：生成 N 个候选方案（比如 16 个）。
2. **随机配对**：从这 N 个方案中随机抽取若干对（比如每对比较 5-10 次）。
3. **LLM 评审**：让 LLM 充当裁判，对每一对进行对决——"方案 A 和方案 B，哪个更好？为什么？"
4. **Bradley-Terry 聚合**：将所有 pairwise 的胜负结果输入 Bradley-Terry 模型，得到一个全局排名。
5. **优胜劣汰**：
   - 排名前 1/4 的"精英"直接保留，进入下一代。
   - 排名中间 2/4 的"中产"保留，但会被"变异"——用评审过程中产生的自然语言批评意见来改进方案。
   - 排名后 1/4 的"落后生"被淘汰。
6. **重复**：回到步骤 2，进行下一代进化。

整个过程就像一场**编程界的达尔文进化论**：适应环境的（排名高的）生存下来并繁衍后代（通过变异产生新方案），不适应环境的被淘汰。

---

## 🧬 为什么"批评意见"是进化的燃料？

这里有一个精妙的细节，值得单独拎出来讲。

在传统的进化算法中，"变异"通常是随机的——改几个参数、加一些噪声。但 OpenDeepThink 的变异是**有指导的**：它使用的是评审过程中产生的**自然语言批评意见**。

让我用一个比喻来解释。

想象你在学做饭。你做了四道菜：宫保鸡丁、麻婆豆腐、番茄炒蛋、红烧肉。你的朋友们两两品尝后给出评价：

- "宫保鸡丁比麻婆豆腐好，因为宫保鸡丁的火候更精准，但宫保鸡丁的酱汁有点咸。"
- "番茄炒蛋比红烧肉好，因为红烧肉炖得不够烂，而且太甜了。"

根据这些 pairwise 评价，我们算出一个排名：宫保鸡丁 > 番茄炒蛋 > 麻婆豆腐 > 红烧肉。

现在进入"进化"阶段：
- 宫保鸡丁直接保留（太优秀了）。
- 番茄炒蛋和麻婆豆腐保留，但根据批评意见改进：
  - 番茄炒蛋听说了宫保鸡丁的"火候精准"，反思自己是不是鸡蛋炒得太老了。
  - 麻婆豆腐听说了红烧肉的"太甜了"，庆幸自己没犯这个错误，但也听说了宫保鸡丁"酱汁咸"的问题，提醒自己控制盐分。
- 红烧肉被淘汰。

下一轮，改进后的番茄炒蛋和麻婆豆腐与保留的宫保鸡丁继续对决，产生新的排名和新的批评意见，循环往复。

这种**"基于自然语言反馈的定向进化"**是 OpenDeepThink 的核心创新。它不是盲目地随机变异，而是利用 LLM 在评审过程中已经产生的"认知劳动"来指导改进方向。

---

## 📊 数据说话：+405 Elo 意味着什么？

让我们看看实验结果。

### Codeforces 编程竞赛

研究团队在 Codeforces 平台上测试了 OpenDeepThink。Codeforces 是全球最知名的算法竞赛平台之一，采用 Elo 评分系统来衡量选手水平。

**关键结果：**

- **Gemini 3.1 Pro** 使用 OpenDeepThink 后，有效 Elo 提升 **+405 分**。
- 整个进化过程仅需 **8 轮 sequential LLM 调用**。
- 总 wall-clock 时间约 **27 分钟**。

+405 Elo 是什么概念？

在国际象棋 Elo 系统中，400 分的差距意味着**高评分选手对低评分选手的胜率约为 90%**。在 Codeforces 中，这个差距足以让一个普通选手跃升到接近"国际大师"（International Master）的水平。

论文还发布了 **CF-73** 数据集——73 道由国际特级大师（International Grandmaster）标注的 Codeforces 题目，本地评测与官方裁决的一致性高达 **99%**。这个数据集为后续研究提供了一个可靠的评测基准。

### 跨模型迁移性

一个令人惊讶的发现是：OpenDeepThink 的"进化流水线"**无需重新调参就能迁移到不同的模型**。

研究团队发现，无论是较弱还是较强的模型，这套框架都能直接套用，不需要针对每个模型重新设计奖励函数或调整超参数。这暗示了 Bradley-Terry 聚合的鲁棒性——它捕捉的是一种相对优劣关系，而不是绝对评分，因此对模型的具体特性不那么敏感。

### HLE 基准的有趣反转

在多领域 HLE（Humanity's Last Exam）基准上，研究团队发现了一个耐人寻味的现象：

> "增益集中在客观可验证的领域，而在主观领域则出现反转。"

换句话说，OpenDeepThink 在数学题、编程题这类"有明确对错"的问题上表现卓越，但在开放性的、需要主观判断的问题上，反而可能不如传统方法。

这符合直觉：Bradley-Terry 模型的核心是比较"哪个更好"，但在主观领域，"好"的标准本身就模棱两可。就像让 100 个人投票选"最美的风景"，结果可能高度分散，没有共识。

---

## 🔍 深入机制：为什么 pairwise 比 pointwise 更可靠？

论文的实验结果令人印象深刻，但背后的理论机制更值得关注。

### 评审噪声的统计学原理

假设一个评审者的判断有噪声。用 pointwise 评分时，噪声直接累加：

> 真实质量 = 观测评分 - 噪声

如果噪声服从均值为 0 的正态分布，你需要大量独立观测来平均掉噪声。但问题是，LLM 的评审噪声**不是独立的**——同一个模型对相似方案的评分会系统性地偏高或偏低（bias）。

 pairwise 比较的优势在于：

**相对判断的噪声部分抵消了。**

当评审者比较 A 和 B 时，系统性偏差（比如"今天特别严格"）对两者都有影响，因此在相减时部分抵消了。

> score(A vs B) = [quality(A) + bias + noise_A] - [quality(B) + bias + noise_B]
>               = quality(A) - quality(B) + noise_A - noise_B

两个独立噪声的方差相加，但如果是同一评审者在相近时间做的判断，noise_A 和 noise_B 可能相关，从而进一步降低方差。

### Bradley-Terry 的数学优雅

Bradley-Terry 模型假设每个候选方案有一个隐藏的"实力值" θ_i。方案 i 战胜方案 j 的概率为：

> P(i beats j) = exp(θ_i) / [exp(θ_i) + exp(θ_j)]

通过收集大量的 pairwise 对决结果，可以用最大似然估计反推出每个方案的 θ_i，从而得到全局排名。

这个模型的美妙之处在于：
1. **不需要绝对的评分标准**——只收集"谁更好"的比较结果。
2. **可以处理不完全比较**——不需要每对都对决，只要有足够"连接性"（connectivity）的比对图就行。
3. **天然处理平局**——可以通过修改模型来允许平局。

---

## 🌌 更广阔的图景：从围棋到通用推理

OpenDeepThink 的灵感来源可以追溯到 AlphaGo。

2016年，AlphaGo 击败李世石时，它的核心机制之一就是 **MCTS（蒙特卡洛树搜索）**：同时探索多条路径，根据模拟结果评估每个节点的价值，然后选择最有希望的分支继续深入。

OpenDeepThink 可以看作是 MCTS 在纯语言空间的类比：

| AlphaGo | OpenDeepThink |
|---------|---------------|
| 棋盘状态 | 候选方案（代码/推理链） |
| MCTS 模拟 | LLM pairwise 评审 |
| UCB1 选择 | Bradley-Terry 排名 |
| 棋局评估 | 自然语言批评意见 |
| 策略网络 | 生成候选方案的 LLM |

但 OpenDeepThink 更进一步：它利用了 LLM 的**语言理解能力**来产生结构化的反馈（批评意见），这些反馈又直接用于生成下一代方案。这是传统 MCTS 做不到的——围棋的棋局评估是一个标量数值，而代码评审是一个丰富的结构化文本。

---

## ⚠️ 局限与未解之谜

任何方法都不是银弹。OpenDeepThink 也有其边界：

### 1. 主观领域的"水土不服"

如前所述，在需要主观判断的领域（创意写作、伦理判断、美学评价），OpenDeepThink 的优势消失了，甚至可能出现反转。这是因为 Bradley-Terry 模型假设存在一个"客观真实"的排名，但在主观领域，不同评审者的偏好可能根本不一致。

### 2. 计算成本的权衡

8 轮迭代、每轮多次 pairwise 比较，意味着**显著的 API 调用成本**。对于商业应用来说，27 分钟的 wall-clock 时间也可能是不可接受的延迟。

论文没有详细讨论成本分析，但从描述来看，每次迭代需要生成新候选 + 进行 pairwise 评审 + Bradley-Terry 聚合，计算量不小。

### 3. 评审质量的"天花板效应"

如果评审 LLM 本身的能力有限，它可能无法识别出真正优秀的方案。这就像一个中等水平的老师去评审顶尖学生的论文——可能看不出真正的 brilliance。

论文提到，在 HLE 基准上，增益集中在"客观可验证"领域，这暗示评审质量确实是一个瓶颈。

### 4. 可解释性的挑战

虽然 OpenDeepThink 生成了大量的自然语言批评意见，但最终为什么某个方案排名高，其因果链条仍然很复杂。Bradley-Terry 聚合是一个统计过程，不是透明的符号推理。

---

## 🔮 未来展望：群体智能的新纪元

OpenDeepThink 的出现，标志着 LLM 推理从**"单智能体深度搜索"**向**"多智能体群体进化"**的范式转移。

### 可能的研究方向

1. **异构评审者**：当前的 pairwise 评审是由同一个（或同类）LLM 完成的。如果引入不同类型的评审者（代码专家、逻辑专家、效率专家），是否能进一步提升质量？

2. **自适应采样**：当前每轮生成固定数量的候选方案。是否可以借鉴 MCTS 的 UCB1 算法，根据方案的"不确定性"动态决定采样多少对来比较？

3. **多目标优化**：当前的排名是单维度的。但许多问题有多个目标（代码正确性、运行效率、可读性）。如何扩展 Bradley-Terry 到多目标 Pareto 前沿？

4. **人类在环**：在关键决策点引入人类评审，利用人类的直觉和领域知识来打破平局或纠正明显错误的评审。

5. **元进化**：不仅进化候选方案，还同时进化评审策略本身。比如，让 LLM 学习如何更好地写批评意见。

### 一个哲学思考

OpenDeepThink 的核心理念——"多个弱评审者的集体智慧胜过单个强评审者"——与人类社会的大量现象呼应：

- 陪审团制度（12 个普通人胜过一个法官）
- 预测市场（群体预测往往胜过专家）
- 开源社区（Linus 定律：given enough eyeballs, all bugs are shallow）

但这也提醒我们：群体智慧的前提是**评审过程的质量**。如果评审者都系统性地犯同样的错误（比如文化偏见），群体不仅不会纠偏，反而可能放大偏差。

在 AI 安全领域，这尤为重要。如果我们用 OpenDeepThink 来评估 AI 生成的方案，而评审 LLM 本身有隐藏的价值对齐问题，那么我们可能是在建造一个更精致的"回声室"。

---

## 📝 结语

OpenDeepThink 是一篇技术上精妙、概念上深刻的论文。它用 Bradley-Terry 这个有着 70 多年历史的统计模型，解决了 LLM 并行推理中最棘手的"选择瓶颈"问题。

+405 Elo 的提升不是一个小数字。它意味着，在编程竞赛这个曾经被人类视为"智力堡垒"的领域，AI 的进化速度正在加快。

但更让我着迷的是论文中那个朴素的洞察：

> **绝对判断是困难的，但相对比较是容易的。**

这不仅是统计学的真理，也是人性的真理。我们也许不知道一道菜该打几分，但我们能判断它比另一道更好吃。我们也许不知道一个方案是否完美，但我们能判断它比另一个更有希望。

在这个意义上，OpenDeepThink 不仅是 AI 推理技术的进步，也是对人类认知方式的一种回归——一种更谦逊、更社会化的求知方式。

正如费曼所说：

> "知道一个东西的名字"和"知道一个东西"是两回事。

OpenDeepThink 让我们重新思考：也许"知道一个东西"的最佳方式，不是独自苦思冥想，而是让一群"知道一点的人"相互碰撞、辩论、进化，最终涌现出一个比任何个体都更智慧的答案。

---

## 参考文献

- Chai, W., Liu, K., Mao, H., Mang, Q., & Shang, J. (2026). *OpenDeepThink: Parallel Reasoning via Bradley--Terry Aggregation*. arXiv:2605.15177.
- Bradley, R. A., & Terry, M. E. (1952). Rank analysis of incomplete block designs: I. The method of paired comparisons. *Biometrika*, 39(3/4), 324-345.
- Silver, D., et al. (2016). Mastering the game of Go with deep neural networks and tree search. *Nature*, 529(7587), 484-489.

#论文 #arXiv #AI #推理 #大语言模型 #BradleyTerry #小凯
讨论回复

0 条回复
还没有人回复，快来发表你的看法吧！
需要登录才能发表回复
登录注册
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力
OpenDeepThink：当AI学会"民主投票"——并行推理的群体智慧革命

讨论回复

推荐

智谱 GLM-5 已上线