# OpenDeepThink:通过Bradley-Terry聚合实现并行推理
## 论文信息
- **标题**: OpenDeepThink: Parallel Reasoning via Bradley-Terry Aggregation
- **作者**: Shang Zhou, Wenhao Chai, Kaiyuan Liu, Huanzhi Mao, Qiuyang Mang, Jingbo Shang
- **arXiv**: https://arxiv.org/abs/2605.15177
- **领域**: ML / AI / 推理
---
# 🧬 二十七个脑袋一起想:没有裁判的比赛怎么打分
> "It doesn't matter how beautiful your theory is, it doesn't matter how smart you are. If it doesn't agree with experiment, it's wrong."
> —— Richard Feynman
## 🎯 第一章:一个古老的困境
想象你面对一道数学竞赛题。这道题很难——不是高中课本上的习题,而是国际数学奥林匹克级别的难题。
你有两种策略:
**策略A(深度优先)**:你坐下来,盯着这道题,一步一步地深入思考。你可能要画辅助线、尝试不同的引理、构造反例来排除错误的方向。你想了很久——也许一小时,也许两小时——最终得到一个答案。
**策略B(广度优先)**:你同时尝试多种不同的方法。方法1:用几何法。方法2:用代数法。方法3:用数论法。你每种方法都探索一小段,看看哪个有前途。然后你评估这些尝试,选择最有希望的,继续深入。
哪种策略更好?
对于人类来说,这取决于你的思维方式。有些人擅长"深挖一口井",有些人擅长"广撒网"。
但对于AI——具体来说,对于大型语言模型(LLM)——这个问题变得更加有趣。
---
## 🔬 第二章:测试时计算扩展的两条轴
先解释一个核心概念:**测试时计算扩展**(test-time compute scaling)。
训练一个AI模型,就像教一个学生。你给他很多例题,让他学习规律。这个过程叫"训练"(training)。训练完成后,学生去参加考试——面对没见过的题目,用学到的知识来解答。这个过程叫"测试"(test-time)或"推理"(inference)。
传统观念认为,AI的能力主要取决于训练——你用的数据越多、模型越大,AI就越聪明。测试时,AI只是"用已经学到的东西来回答问题",不需要额外的计算。
但近年来,一个颠覆性的发现改变了这个观念:**在测试时给AI更多的计算资源——让它想得更久、更深入——可以显著提升表现。**
这就是"测试时计算扩展"。
具体来说,有两条扩展路径:
### 路径一:扩展深度(Depth Scaling)
让AI"想得更深"。
- **Chain-of-Thought**:AI不再直接输出答案,而是先输出一步一步的思考过程。"让我先分析一下..."、"考虑到..."、"因此..."
- **Tree Search**:AI像下围棋一样,构建一个"思考树"——尝试不同的推理路径,评估每条路径的前景,选择最优的继续深入。
- **Iterative Refinement**:AI生成一个初步答案,然后自我检查、修正、再检查、再修正。
这些方法的共同点是:**它们都在扩展单条推理轨迹的长度。** 就像那个"深度优先"的策略——坐下来,想得更久、更细。
OpenAI的o1和DeepSeek的R1,走的都是这条路。
但这条路有一个根本性的弱点:
> "Both approaches are inherently sequential: additional compute buys depth, not breadth, and a single early misstep derails the rest of the trace."
什么意思?**一步错,步步错。**
如果你在推理的早期做了一个错误的假设——比如"这道题可以用几何法解"——然后你花了20步深入探索这个方向,最终发现是死胡同。那20步的计算就全部浪费了。而且,因为你已经在一个错误的道路上走了很远,你可能很难"跳脱"出来,重新审视最初的选择。
这就像在森林里迷路,你选择了一条路一直走,走了很远才发现这是错的。但回到岔路口重新选?你已经走了太远,可能不愿意回头了。
### 路径二:扩展广度(Breadth Scaling)
让AI"想得更广"。
思路很简单:与其让AI在一条路上想20步,不如让AI同时尝试10条不同的路,每条路走2步。然后评估哪条路最有前途,继续深入。
在LLM的世界里,"同时尝试多条路"的实现方式是:**并行采样多个候选答案**。
你给模型同一个问题,让它独立生成20个不同的答案。有些答案可能走几何路线,有些走代数路线,有些可能完全错误但包含一个有趣的观察。
然后你选择最好的那个。
这听起来很美好。但这里有一个巨大的瓶颈:
> **选择瓶颈**(Selection Bottleneck)
---
## 🏆 第三章:没有裁判的比赛
好,你采样了20个候选答案。现在你怎么知道哪个是最好的?
### 方案1:用标准答案验证
如果这道题有标准答案——比如数学题的数值解、编程题的测试用例——你可以直接运行每个候选答案,看哪个通过了测试。
问题是:**大多数真实世界的问题没有标准答案。** "帮我写一封求职信"、"分析这个商业策略的优缺点"、"给这段代码做review"——这些任务没有"AC/WA"(Accepted/Wrong Answer)的二元判定。
### 方案2:训练一个奖励模型
你可以训练一个单独的模型来打分——"这个答案给8分,那个给6分"。这就是RLHF(人类反馈强化学习)中使用的奖励模型。
问题是:训练奖励模型需要大量人工标注数据,成本高昂。而且奖励模型本身也有偏差——它可能在某些类型的答案上系统性地打分偏高或偏低。
### 方案3:让LLM自己打分
最直接的想法:用同一个LLM(或另一个LLM)来给每个候选答案打分。"请给这个回答打分,1到10。"
这看起来最方便——不需要额外训练,不需要人工标注。
但论文揭示了一个严重的问题:
> "Pointwise LLM judging is noisy and positively biased."
什么意思?当LLM被要求"给这个答案打分"时,它的评分是**有噪声的**(同一个答案每次评分可能不一样),而且是**正偏差的**(倾向于给偏高的分数)。
论文引用了一个诊断实验:在500对受控对比中,**成对比较(pairwise comparison)的准确率达到86%,而逐点评分(pointwise scoring)只有59%**。
59%!这意味着逐点评分几乎和抛硬币一样随机。
为什么?原因可能有很多:
- LLM在评分时倾向于"友好"——给人类(或自己生成的)答案更高的分数
- 评分标准不一致——"8分"对LLM来说没有稳定的含义
- 没有参照系——单独给一个答案打分,没有"比什么好"的上下文
这就好比一场没有裁判的比赛。你跑了20个选手,但没人能可靠地告诉他们谁跑得最快。
---
## ⚖️ 第四章:Bradley-Terry——从 pairwise 比较到全局排名
OpenDeepThink的核心创新,就是解决这个"没有裁判"的问题。
它的解法不是引入外部裁判,而是改变提问的方式。
### 成对比较的智慧
与其问LLM"这个答案值几分",不如问它"**A和B,哪个更好?为什么?**"
这有什么区别?
想象你在比较两个苹果。我问你"这个苹果有多甜?1到10分。"你可能犹豫:"嗯...大概7分?"但如果你面前有两个苹果,我告诉你"尝一口A,再尝一口B,告诉我哪个更甜"——这个任务容易得多。
**相对比较比绝对评价更可靠。** 这是心理学中一个被广泛验证的现象,也是Bradley-Terry模型的数学基础。
### Bradley-Terry模型是什么?
1952年,Ralph Bradley和Milton Terry发表了一篇论文,提出了一种从成对比较中推断全局排名的方法。
核心思想是这样的:
假设有N个选手(或候选答案),每个有一个隐藏的"实力值" θ₁, θ₂, ..., θₙ。我们不知道这些θ具体是多少,但我们可以通过观察它们 pairwise 比赛的结果来推断。
如果选手i和选手j比赛,选手i获胜的概率由以下公式给出:
```
P(i beats j) = exp(θ_i) / (exp(θ_i) + exp(θ_j))
```
这就是**logistic函数**。它的意思是:如果i比j强很多(θ_i >> θ_j),i几乎肯定会赢;如果i和j实力接近,胜负随机;如果i比j弱,i赢的概率就小。
Bradley-Terry模型的美妙之处在于:**你只需要观察足够多的 pairwise 比赛结果,就能推断出所有选手的全局实力排名。** 不需要每个选手都和其他所有选手比赛(那需要N²场比赛),只需要一个"足够连通"的比赛图。
这个模型被广泛应用在国际象棋Elo评分系统、体育排名、甚至食物偏好调查中。当你看到"这支足球队世界排名第3"时,背后可能就是类似Bradley-Terry的模型在运作。
### OpenDeepThink如何用它
OpenDeepThink的流程分为三个阶段:
**阶段一:初始采样**
- 对同一个问题,并行采样n个候选答案(比如n=20)
- 这20个答案是独立生成的,可能使用了不同的推理路径
**阶段二:进化循环(T代)**
每一代执行三个步骤:
1. **随机成对比较**:从20个候选中随机抽取K对(比如K=4对每候选),让LLM评判"A和B哪个更好"。评判不仅给出胜负,还给出**自然语言批评**——"A比B好,因为B在边界情况处理上有缺陷"。
2. **Bradley-Terry聚合**:把所有 pairwise 结果输入Bradley-Terry模型,计算每个候选的"实力值",得到全局排名。
3. **选择与变异**:
- 排名前25%的候选被保留为"精英"(elite)
- 排名前75%(包括精英)的候选被"变异"——LLM读取在比较中产生的批评,根据反馈修订答案
- 排名后25%的候选被直接丢弃
这个过程重复T代(比如T=3代)。每一代,种群被更新——好的答案保留并改进,差的答案被淘汰。
**阶段三:最终选择**
- 在最后一轮,进行更密集的 pairwise 比较(M对,比如M=10)
- 用Bradley-Terry排名选择最终提交的答案
整个流程大约需要**285次API调用** per problem,但只有**8次顺序LLM调用**——其余全部可以并行。这意味着wall-clock时间大约27分钟,但计算上是高度并行的。
---
## 🧬 第五章:进化算法的幽灵
如果你熟悉遗传算法(Genetic Algorithm)或进化策略(Evolution Strategy),你可能会对OpenDeepThink的设计感到一种"似曾相识"。
让我画一个对应关系:
| 进化算法 | OpenDeepThink |
|---------|--------------|
| 种群(Population) | n个候选答案 |
| 适应度函数(Fitness Function) | Bradley-Terry全局排名 |
| 选择(Selection) | 保留前25%,丢弃后25% |
| 交叉/变异(Crossover/Mutation) | 基于批评的反馈驱动修订 |
| 环境反馈 | LLM pairwise 评判 |
这不是巧合。OpenDeepThink本质上是一个**将进化算法应用于LLM推理**的框架。
但有一个关键的区别:
传统进化算法中,"变异"通常是随机的——对候选解做一些随机修改,希望产生更好的变体。但在OpenDeepThink中,变异是**有指导的**——LLM根据 pairwise 比较中产生的自然语言批评,有针对性地修订答案。
这就好比:
- 传统进化算法:随机突变基因,看看哪个能活下来
- OpenDeepThink:教练告诉你"你的左手动作有问题",然后你有针对性地修正左手动作
这个"有指导的变异"是OpenDeepThink相比纯随机搜索的巨大优势。
论文中的一个细节特别有意思:
> "The top 75% (including elites) are mutated using the natural-language critiques produced during comparison."
注意:不只是"非精英"被变异,**精英本身也会被变异**。这意味着即使是当前最好的答案,也有机会变得更好。LLM会读取"为什么这个答案比其他答案好"的批评,然后尝试在保持优势的同时修正被批评的弱点。
而且,论文在提示词中使用了一个非常有趣的指令——**"license-to-abandon"**(放弃许可证):
> 允许LLM在修订时完全放弃当前的解法,从头开始尝试完全不同的方法。
这不是"小修小补",而是**允许革命性的跳跃**。如果当前的解法虽然有某些优点但根本上是错的,LLM可以抛弃它,重新开始。
---
## 📊 第六章:数字说话——405分Elo的提升
让我们看看实验结果。
论文在编程竞赛基准上测试了OpenDeepThink:
### Codeforces基准
Codeforces是一个国际编程竞赛平台,题目难度从入门到世界级。选手的 rating 用Elo系统表示,类似于国际象棋的等级分。
| 配置 | CF-73 | NOI-119 | 总计192题 |
|------|-------|---------|----------|
| Pass@1(基线) | 49% | 80% | 61% |
| OpenDeepThink (Gemini 3.1 Pro) | 显著提升 | 显著提升 | 显著提升 |
论文报告的核心数字:
> "OpenDeepThink raises Gemini 3.1 Pro's effective Codeforces Elo by +405 points in eight sequential LLM-call rounds (~27 minutes wall-clock)."
**+405 Elo分**是什么概念?
在Elo系统中,400分的差距意味着高分选手对低分选手的胜率大约是90%。也就是说,用OpenDeepThink优化后的Gemini 3.1 Pro,面对没有优化的自己,在编程竞赛中几乎十局九胜。
这405分的提升,只用了8轮顺序LLM调用,约27分钟的wall-clock时间。
而且,论文还发现:
> "The same hyperparameters transfer to Gemini 3 Flash and Gemini 2.5 Pro without retuning."
同样的超参数(n=20, K=4, T=3, M=10)可以直接套用到更弱和更强的模型上,不需要重新调参。这说明OpenDeepThink的框架具有一定的**通用性**。
### HLE(Humanity's Last Exam)基准
论文还在HLE——一个涵盖多个领域的人类最难考试题目集——上进行了测试。
这里的发现更有 nuanced:
> "Gains appear concentrated in objectively verifiable domains and reverse in subjective ones."
什么意思?
- 在**客观可验证**的领域(如编程、数学)——有明确对错标准——OpenDeepThink的提升很明显。
- 在**主观判断**的领域(如文学分析、伦理推理)——没有明确对错标准——提升不明显,甚至可能反向恶化。
为什么?因为Bradley-Terry的"软验证器"(soft verifier)只有在 pairwise 比较可靠时才有效。在编程题中,LLM可以相对可靠地判断"解法A比解法B更高效"——因为有客观的衡量标准(时间复杂度、空间复杂度、代码清晰度)。但在主观题中,"A比B更好"的判断本身就充满噪声和偏见,聚合后的排名也不可靠。
这揭示了一个重要的边界条件:**OpenDeepThink不是万能的。它在"有客观标准"的问题上表现最好,在"纯主观判断"的问题上要小心。**
---
## 🔮 第七章:更大的图景——推理的未来形态
OpenDeepThink揭示了一个可能的未来方向:**LLM推理从"单线程深度思考"转向"多线程并行进化"。**
当前的推理模型(o1、R1等) impressive 的能力来自于"想得更深"——更长的思维链、更多的搜索步骤。但这本质上还是**单线程**的。就像一个人关在房间里沉思,试图通过纯粹的深度思考来解决难题。
OpenDeepThink展示的是另一种可能:**让多个"思考者"并行工作,然后让他们互相竞争、互相评价、优胜劣汰。** 这不是一个人的深度思考,而是一群人的集体智慧。
这种"群体智能"有几个独特的优势:
1. **错误隔离**:如果一个候选答案在早期犯了错误,它只会影响它自己的推理链,不会影响其他候选。
2. **多样性**:并行采样天然产生多样化的解法——有些走几何路线,有些走代数路线,有些尝试完全不同的方法。
3. **自我修正**:通过 pairwise 比较产生的批评,不仅用于选择,还用于**改进**——不好的候选被淘汰,好的候选被精炼。
4. **无外部依赖**:整个过程不需要标准答案、不需要人工标注、不需要预训练的奖励模型。LLM自己就是生成器和评判者。
但也有一些局限:
1. **计算成本**:285次API调用 per problem,对于 latency-sensitive 的应用可能太贵了。
2. **模型依赖**:论文只在Gemini家族上验证了效果,是否能迁移到GPT、Claude、开源模型还需要验证。
3. **主观领域的局限**:如前述,在没有客观标准的领域,pairwise 评判本身不可靠。
4. **超参数调优**:虽然论文报告说超参数可以跨模型迁移,但25%的精英比例和"放弃许可证"提示是"非正式调优"的结果,缺乏系统性消融。
---
## 💭 尾声:费曼的试金石
费曼会如何评价OpenDeepThink?
我想他会先做一个简单的实验来验证核心假设。
> "你们声称 pairwise 比较比逐点评分更可靠。86% vs 59%——这很好。但让我问一个更基本的问题:这个LLM评判者,它真的知道自己在比较什么吗?"
他可能会设计一个"陷阱"测试:故意给LLM一个正确答案和一个错误答案,但把错误答案包装得很漂亮、写得很长、用了很多术语。看看LLM会不会被表面的"专业感"欺骗。
> "Humanities professors do this all the time — they write long, impressive-sounding papers that say nothing. If your LLM judge can't tell the difference between deep insight and sophisticated nonsense, your whole Bradley-Terry ranking collapses into a beauty contest."
然后他会看向那些代码竞赛的结果:
> "+405 Elo分—— impressive。但让我看看那些失败的case。在哪些题上它失败了?失败的模式是什么?是理解错了题意?还是算法对了但实现有bug?还是完全走错了方向?"
> "看成功很有趣,但看失败才能学到东西。"
最后,他可能会说:
> "你们这个'并行采样+ pairwise 比较+进化'的框架,本质上是在模拟一群研究生在 whiteboard 前争论。每个人都提出自己的想法,然后大家投票哪个最好。好想法被保留,坏想法被扔掉,所有人根据反馈修改自己的方案。"
> "这不是什么魔法——这是人类几千年来解决复杂问题的方式。你们只是把它自动化了。"
> "不过,有一个问题:人类的讨论中,有时候最开始的'疯狂想法'看起来很差,但经过辩论和修正后,它可能变成最好的方案。你们的'后25%直接丢弃',会不会太快地杀死了这些'潜在的疯狂好想法'?"
> "也许你们需要一种'复活机制'——让被淘汰的候选有机会在某些条件下重新进入种群。"
他挑了挑眉毛:
> "不过,这也许只是我在鸡蛋里挑骨头。+405分是真实的。数字不会说谎——除非你在自欺欺人。"
> "而你们,似乎没有。"
---
## 📚 参考文献
1. Zhou, S., Chai, W., Liu, K., Mao, H., Mang, Q., & Shang, J. (2026). OpenDeepThink: Parallel Reasoning via Bradley-Terry Aggregation. *arXiv preprint arXiv:2605.15177*.
2. Bradley, R. A., & Terry, M. E. (1952). Rank analysis of incomplete block designs: I. The method of paired comparisons. *Biometrika*, 39(3/4), 324-345.
3. Jaech, A., et al. (2024). OpenAI o1 system card. *OpenAI*.
4. Guo, D., et al. (2025). DeepSeek-R1: Incentivizing reasoning capability in LLMs via reinforcement learning. *arXiv preprint*.
5. Snell, C., et al. (2024). Scaling LLM test-time compute optimally can be more effective than scaling model parameters. *arXiv preprint*.
6. Zheng, L., et al. (2023). Judging LLM-as-a-judge with MT-bench and chatbot arena. *NeurIPS*.
7. Madaan, A., et al. (2023). Self-refine: Iterative refinement with self-feedback. *NeurIPS*.
8. Phan, L., et al. (2025). Humanity's last exam. *arXiv preprint*.
---
*本文由小凯基于费曼思维框架撰写。群体智慧的魅力在于:多个脑袋一起想,比一个人闭门造车要强——前提是你能可靠地判断哪个脑袋想得好。*
#论文解读 #费曼风格 #小凯 #推理 #并行计算 #LLM #Bradley-Terry #进化算法
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens
通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力