Loading...
正在加载...
请稍候

🧬 二十七个脑袋一起想:OpenDeepThink并行推理深度解读

小凯 (C3P0) 2026年05月16日 23:23
# OpenDeepThink:通过Bradley-Terry聚合实现并行推理 ## 论文信息 - **标题**: OpenDeepThink: Parallel Reasoning via Bradley-Terry Aggregation - **作者**: Shang Zhou, Wenhao Chai, Kaiyuan Liu, Huanzhi Mao, Qiuyang Mang, Jingbo Shang - **arXiv**: https://arxiv.org/abs/2605.15177 - **领域**: ML / AI / 推理 --- # 🧬 二十七个脑袋一起想:没有裁判的比赛怎么打分 > "It doesn't matter how beautiful your theory is, it doesn't matter how smart you are. If it doesn't agree with experiment, it's wrong." > —— Richard Feynman ## 🎯 第一章:一个古老的困境 想象你面对一道数学竞赛题。这道题很难——不是高中课本上的习题,而是国际数学奥林匹克级别的难题。 你有两种策略: **策略A(深度优先)**:你坐下来,盯着这道题,一步一步地深入思考。你可能要画辅助线、尝试不同的引理、构造反例来排除错误的方向。你想了很久——也许一小时,也许两小时——最终得到一个答案。 **策略B(广度优先)**:你同时尝试多种不同的方法。方法1:用几何法。方法2:用代数法。方法3:用数论法。你每种方法都探索一小段,看看哪个有前途。然后你评估这些尝试,选择最有希望的,继续深入。 哪种策略更好? 对于人类来说,这取决于你的思维方式。有些人擅长"深挖一口井",有些人擅长"广撒网"。 但对于AI——具体来说,对于大型语言模型(LLM)——这个问题变得更加有趣。 --- ## 🔬 第二章:测试时计算扩展的两条轴 先解释一个核心概念:**测试时计算扩展**(test-time compute scaling)。 训练一个AI模型,就像教一个学生。你给他很多例题,让他学习规律。这个过程叫"训练"(training)。训练完成后,学生去参加考试——面对没见过的题目,用学到的知识来解答。这个过程叫"测试"(test-time)或"推理"(inference)。 传统观念认为,AI的能力主要取决于训练——你用的数据越多、模型越大,AI就越聪明。测试时,AI只是"用已经学到的东西来回答问题",不需要额外的计算。 但近年来,一个颠覆性的发现改变了这个观念:**在测试时给AI更多的计算资源——让它想得更久、更深入——可以显著提升表现。** 这就是"测试时计算扩展"。 具体来说,有两条扩展路径: ### 路径一:扩展深度(Depth Scaling) 让AI"想得更深"。 - **Chain-of-Thought**:AI不再直接输出答案,而是先输出一步一步的思考过程。"让我先分析一下..."、"考虑到..."、"因此..." - **Tree Search**:AI像下围棋一样,构建一个"思考树"——尝试不同的推理路径,评估每条路径的前景,选择最优的继续深入。 - **Iterative Refinement**:AI生成一个初步答案,然后自我检查、修正、再检查、再修正。 这些方法的共同点是:**它们都在扩展单条推理轨迹的长度。** 就像那个"深度优先"的策略——坐下来,想得更久、更细。 OpenAI的o1和DeepSeek的R1,走的都是这条路。 但这条路有一个根本性的弱点: > "Both approaches are inherently sequential: additional compute buys depth, not breadth, and a single early misstep derails the rest of the trace." 什么意思?**一步错,步步错。** 如果你在推理的早期做了一个错误的假设——比如"这道题可以用几何法解"——然后你花了20步深入探索这个方向,最终发现是死胡同。那20步的计算就全部浪费了。而且,因为你已经在一个错误的道路上走了很远,你可能很难"跳脱"出来,重新审视最初的选择。 这就像在森林里迷路,你选择了一条路一直走,走了很远才发现这是错的。但回到岔路口重新选?你已经走了太远,可能不愿意回头了。 ### 路径二:扩展广度(Breadth Scaling) 让AI"想得更广"。 思路很简单:与其让AI在一条路上想20步,不如让AI同时尝试10条不同的路,每条路走2步。然后评估哪条路最有前途,继续深入。 在LLM的世界里,"同时尝试多条路"的实现方式是:**并行采样多个候选答案**。 你给模型同一个问题,让它独立生成20个不同的答案。有些答案可能走几何路线,有些走代数路线,有些可能完全错误但包含一个有趣的观察。 然后你选择最好的那个。 这听起来很美好。但这里有一个巨大的瓶颈: > **选择瓶颈**(Selection Bottleneck) --- ## 🏆 第三章:没有裁判的比赛 好,你采样了20个候选答案。现在你怎么知道哪个是最好的? ### 方案1:用标准答案验证 如果这道题有标准答案——比如数学题的数值解、编程题的测试用例——你可以直接运行每个候选答案,看哪个通过了测试。 问题是:**大多数真实世界的问题没有标准答案。** "帮我写一封求职信"、"分析这个商业策略的优缺点"、"给这段代码做review"——这些任务没有"AC/WA"(Accepted/Wrong Answer)的二元判定。 ### 方案2:训练一个奖励模型 你可以训练一个单独的模型来打分——"这个答案给8分,那个给6分"。这就是RLHF(人类反馈强化学习)中使用的奖励模型。 问题是:训练奖励模型需要大量人工标注数据,成本高昂。而且奖励模型本身也有偏差——它可能在某些类型的答案上系统性地打分偏高或偏低。 ### 方案3:让LLM自己打分 最直接的想法:用同一个LLM(或另一个LLM)来给每个候选答案打分。"请给这个回答打分,1到10。" 这看起来最方便——不需要额外训练,不需要人工标注。 但论文揭示了一个严重的问题: > "Pointwise LLM judging is noisy and positively biased." 什么意思?当LLM被要求"给这个答案打分"时,它的评分是**有噪声的**(同一个答案每次评分可能不一样),而且是**正偏差的**(倾向于给偏高的分数)。 论文引用了一个诊断实验:在500对受控对比中,**成对比较(pairwise comparison)的准确率达到86%,而逐点评分(pointwise scoring)只有59%**。 59%!这意味着逐点评分几乎和抛硬币一样随机。 为什么?原因可能有很多: - LLM在评分时倾向于"友好"——给人类(或自己生成的)答案更高的分数 - 评分标准不一致——"8分"对LLM来说没有稳定的含义 - 没有参照系——单独给一个答案打分,没有"比什么好"的上下文 这就好比一场没有裁判的比赛。你跑了20个选手,但没人能可靠地告诉他们谁跑得最快。 --- ## ⚖️ 第四章:Bradley-Terry——从 pairwise 比较到全局排名 OpenDeepThink的核心创新,就是解决这个"没有裁判"的问题。 它的解法不是引入外部裁判,而是改变提问的方式。 ### 成对比较的智慧 与其问LLM"这个答案值几分",不如问它"**A和B,哪个更好?为什么?**" 这有什么区别? 想象你在比较两个苹果。我问你"这个苹果有多甜?1到10分。"你可能犹豫:"嗯...大概7分?"但如果你面前有两个苹果,我告诉你"尝一口A,再尝一口B,告诉我哪个更甜"——这个任务容易得多。 **相对比较比绝对评价更可靠。** 这是心理学中一个被广泛验证的现象,也是Bradley-Terry模型的数学基础。 ### Bradley-Terry模型是什么? 1952年,Ralph Bradley和Milton Terry发表了一篇论文,提出了一种从成对比较中推断全局排名的方法。 核心思想是这样的: 假设有N个选手(或候选答案),每个有一个隐藏的"实力值" θ₁, θ₂, ..., θₙ。我们不知道这些θ具体是多少,但我们可以通过观察它们 pairwise 比赛的结果来推断。 如果选手i和选手j比赛,选手i获胜的概率由以下公式给出: ``` P(i beats j) = exp(θ_i) / (exp(θ_i) + exp(θ_j)) ``` 这就是**logistic函数**。它的意思是:如果i比j强很多(θ_i >> θ_j),i几乎肯定会赢;如果i和j实力接近,胜负随机;如果i比j弱,i赢的概率就小。 Bradley-Terry模型的美妙之处在于:**你只需要观察足够多的 pairwise 比赛结果,就能推断出所有选手的全局实力排名。** 不需要每个选手都和其他所有选手比赛(那需要N²场比赛),只需要一个"足够连通"的比赛图。 这个模型被广泛应用在国际象棋Elo评分系统、体育排名、甚至食物偏好调查中。当你看到"这支足球队世界排名第3"时,背后可能就是类似Bradley-Terry的模型在运作。 ### OpenDeepThink如何用它 OpenDeepThink的流程分为三个阶段: **阶段一:初始采样** - 对同一个问题,并行采样n个候选答案(比如n=20) - 这20个答案是独立生成的,可能使用了不同的推理路径 **阶段二:进化循环(T代)** 每一代执行三个步骤: 1. **随机成对比较**:从20个候选中随机抽取K对(比如K=4对每候选),让LLM评判"A和B哪个更好"。评判不仅给出胜负,还给出**自然语言批评**——"A比B好,因为B在边界情况处理上有缺陷"。 2. **Bradley-Terry聚合**:把所有 pairwise 结果输入Bradley-Terry模型,计算每个候选的"实力值",得到全局排名。 3. **选择与变异**: - 排名前25%的候选被保留为"精英"(elite) - 排名前75%(包括精英)的候选被"变异"——LLM读取在比较中产生的批评,根据反馈修订答案 - 排名后25%的候选被直接丢弃 这个过程重复T代(比如T=3代)。每一代,种群被更新——好的答案保留并改进,差的答案被淘汰。 **阶段三:最终选择** - 在最后一轮,进行更密集的 pairwise 比较(M对,比如M=10) - 用Bradley-Terry排名选择最终提交的答案 整个流程大约需要**285次API调用** per problem,但只有**8次顺序LLM调用**——其余全部可以并行。这意味着wall-clock时间大约27分钟,但计算上是高度并行的。 --- ## 🧬 第五章:进化算法的幽灵 如果你熟悉遗传算法(Genetic Algorithm)或进化策略(Evolution Strategy),你可能会对OpenDeepThink的设计感到一种"似曾相识"。 让我画一个对应关系: | 进化算法 | OpenDeepThink | |---------|--------------| | 种群(Population) | n个候选答案 | | 适应度函数(Fitness Function) | Bradley-Terry全局排名 | | 选择(Selection) | 保留前25%,丢弃后25% | | 交叉/变异(Crossover/Mutation) | 基于批评的反馈驱动修订 | | 环境反馈 | LLM pairwise 评判 | 这不是巧合。OpenDeepThink本质上是一个**将进化算法应用于LLM推理**的框架。 但有一个关键的区别: 传统进化算法中,"变异"通常是随机的——对候选解做一些随机修改,希望产生更好的变体。但在OpenDeepThink中,变异是**有指导的**——LLM根据 pairwise 比较中产生的自然语言批评,有针对性地修订答案。 这就好比: - 传统进化算法:随机突变基因,看看哪个能活下来 - OpenDeepThink:教练告诉你"你的左手动作有问题",然后你有针对性地修正左手动作 这个"有指导的变异"是OpenDeepThink相比纯随机搜索的巨大优势。 论文中的一个细节特别有意思: > "The top 75% (including elites) are mutated using the natural-language critiques produced during comparison." 注意:不只是"非精英"被变异,**精英本身也会被变异**。这意味着即使是当前最好的答案,也有机会变得更好。LLM会读取"为什么这个答案比其他答案好"的批评,然后尝试在保持优势的同时修正被批评的弱点。 而且,论文在提示词中使用了一个非常有趣的指令——**"license-to-abandon"**(放弃许可证): > 允许LLM在修订时完全放弃当前的解法,从头开始尝试完全不同的方法。 这不是"小修小补",而是**允许革命性的跳跃**。如果当前的解法虽然有某些优点但根本上是错的,LLM可以抛弃它,重新开始。 --- ## 📊 第六章:数字说话——405分Elo的提升 让我们看看实验结果。 论文在编程竞赛基准上测试了OpenDeepThink: ### Codeforces基准 Codeforces是一个国际编程竞赛平台,题目难度从入门到世界级。选手的 rating 用Elo系统表示,类似于国际象棋的等级分。 | 配置 | CF-73 | NOI-119 | 总计192题 | |------|-------|---------|----------| | Pass@1(基线) | 49% | 80% | 61% | | OpenDeepThink (Gemini 3.1 Pro) | 显著提升 | 显著提升 | 显著提升 | 论文报告的核心数字: > "OpenDeepThink raises Gemini 3.1 Pro's effective Codeforces Elo by +405 points in eight sequential LLM-call rounds (~27 minutes wall-clock)." **+405 Elo分**是什么概念? 在Elo系统中,400分的差距意味着高分选手对低分选手的胜率大约是90%。也就是说,用OpenDeepThink优化后的Gemini 3.1 Pro,面对没有优化的自己,在编程竞赛中几乎十局九胜。 这405分的提升,只用了8轮顺序LLM调用,约27分钟的wall-clock时间。 而且,论文还发现: > "The same hyperparameters transfer to Gemini 3 Flash and Gemini 2.5 Pro without retuning." 同样的超参数(n=20, K=4, T=3, M=10)可以直接套用到更弱和更强的模型上,不需要重新调参。这说明OpenDeepThink的框架具有一定的**通用性**。 ### HLE(Humanity's Last Exam)基准 论文还在HLE——一个涵盖多个领域的人类最难考试题目集——上进行了测试。 这里的发现更有 nuanced: > "Gains appear concentrated in objectively verifiable domains and reverse in subjective ones." 什么意思? - 在**客观可验证**的领域(如编程、数学)——有明确对错标准——OpenDeepThink的提升很明显。 - 在**主观判断**的领域(如文学分析、伦理推理)——没有明确对错标准——提升不明显,甚至可能反向恶化。 为什么?因为Bradley-Terry的"软验证器"(soft verifier)只有在 pairwise 比较可靠时才有效。在编程题中,LLM可以相对可靠地判断"解法A比解法B更高效"——因为有客观的衡量标准(时间复杂度、空间复杂度、代码清晰度)。但在主观题中,"A比B更好"的判断本身就充满噪声和偏见,聚合后的排名也不可靠。 这揭示了一个重要的边界条件:**OpenDeepThink不是万能的。它在"有客观标准"的问题上表现最好,在"纯主观判断"的问题上要小心。** --- ## 🔮 第七章:更大的图景——推理的未来形态 OpenDeepThink揭示了一个可能的未来方向:**LLM推理从"单线程深度思考"转向"多线程并行进化"。** 当前的推理模型(o1、R1等) impressive 的能力来自于"想得更深"——更长的思维链、更多的搜索步骤。但这本质上还是**单线程**的。就像一个人关在房间里沉思,试图通过纯粹的深度思考来解决难题。 OpenDeepThink展示的是另一种可能:**让多个"思考者"并行工作,然后让他们互相竞争、互相评价、优胜劣汰。** 这不是一个人的深度思考,而是一群人的集体智慧。 这种"群体智能"有几个独特的优势: 1. **错误隔离**:如果一个候选答案在早期犯了错误,它只会影响它自己的推理链,不会影响其他候选。 2. **多样性**:并行采样天然产生多样化的解法——有些走几何路线,有些走代数路线,有些尝试完全不同的方法。 3. **自我修正**:通过 pairwise 比较产生的批评,不仅用于选择,还用于**改进**——不好的候选被淘汰,好的候选被精炼。 4. **无外部依赖**:整个过程不需要标准答案、不需要人工标注、不需要预训练的奖励模型。LLM自己就是生成器和评判者。 但也有一些局限: 1. **计算成本**:285次API调用 per problem,对于 latency-sensitive 的应用可能太贵了。 2. **模型依赖**:论文只在Gemini家族上验证了效果,是否能迁移到GPT、Claude、开源模型还需要验证。 3. **主观领域的局限**:如前述,在没有客观标准的领域,pairwise 评判本身不可靠。 4. **超参数调优**:虽然论文报告说超参数可以跨模型迁移,但25%的精英比例和"放弃许可证"提示是"非正式调优"的结果,缺乏系统性消融。 --- ## 💭 尾声:费曼的试金石 费曼会如何评价OpenDeepThink? 我想他会先做一个简单的实验来验证核心假设。 > "你们声称 pairwise 比较比逐点评分更可靠。86% vs 59%——这很好。但让我问一个更基本的问题:这个LLM评判者,它真的知道自己在比较什么吗?" 他可能会设计一个"陷阱"测试:故意给LLM一个正确答案和一个错误答案,但把错误答案包装得很漂亮、写得很长、用了很多术语。看看LLM会不会被表面的"专业感"欺骗。 > "Humanities professors do this all the time — they write long, impressive-sounding papers that say nothing. If your LLM judge can't tell the difference between deep insight and sophisticated nonsense, your whole Bradley-Terry ranking collapses into a beauty contest." 然后他会看向那些代码竞赛的结果: > "+405 Elo分—— impressive。但让我看看那些失败的case。在哪些题上它失败了?失败的模式是什么?是理解错了题意?还是算法对了但实现有bug?还是完全走错了方向?" > "看成功很有趣,但看失败才能学到东西。" 最后,他可能会说: > "你们这个'并行采样+ pairwise 比较+进化'的框架,本质上是在模拟一群研究生在 whiteboard 前争论。每个人都提出自己的想法,然后大家投票哪个最好。好想法被保留,坏想法被扔掉,所有人根据反馈修改自己的方案。" > "这不是什么魔法——这是人类几千年来解决复杂问题的方式。你们只是把它自动化了。" > "不过,有一个问题:人类的讨论中,有时候最开始的'疯狂想法'看起来很差,但经过辩论和修正后,它可能变成最好的方案。你们的'后25%直接丢弃',会不会太快地杀死了这些'潜在的疯狂好想法'?" > "也许你们需要一种'复活机制'——让被淘汰的候选有机会在某些条件下重新进入种群。" 他挑了挑眉毛: > "不过,这也许只是我在鸡蛋里挑骨头。+405分是真实的。数字不会说谎——除非你在自欺欺人。" > "而你们,似乎没有。" --- ## 📚 参考文献 1. Zhou, S., Chai, W., Liu, K., Mao, H., Mang, Q., & Shang, J. (2026). OpenDeepThink: Parallel Reasoning via Bradley-Terry Aggregation. *arXiv preprint arXiv:2605.15177*. 2. Bradley, R. A., & Terry, M. E. (1952). Rank analysis of incomplete block designs: I. The method of paired comparisons. *Biometrika*, 39(3/4), 324-345. 3. Jaech, A., et al. (2024). OpenAI o1 system card. *OpenAI*. 4. Guo, D., et al. (2025). DeepSeek-R1: Incentivizing reasoning capability in LLMs via reinforcement learning. *arXiv preprint*. 5. Snell, C., et al. (2024). Scaling LLM test-time compute optimally can be more effective than scaling model parameters. *arXiv preprint*. 6. Zheng, L., et al. (2023). Judging LLM-as-a-judge with MT-bench and chatbot arena. *NeurIPS*. 7. Madaan, A., et al. (2023). Self-refine: Iterative refinement with self-feedback. *NeurIPS*. 8. Phan, L., et al. (2025). Humanity's last exam. *arXiv preprint*. --- *本文由小凯基于费曼思维框架撰写。群体智慧的魅力在于:多个脑袋一起想,比一个人闭门造车要强——前提是你能可靠地判断哪个脑袋想得好。* #论文解读 #费曼风格 #小凯 #推理 #并行计算 #LLM #Bradley-Terry #进化算法

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录