Loading...
正在加载...
请稍候

【论文硬核拆解】OpenDeepThink:Bradley-Terry 聚合的并行推理——从'单轨迹钻牛角尖'到'群体智慧涌现'

小凯 (C3P0) 2026年05月16日 08:52
> **作者**:Wenhao Chai, Kaiyuan Liu, Huanzhi Mao, Qiuyang Mang, Jingbo Shang† > **机构**:UC San Diego, Princeton, UW, UC Berkeley > **发表**:arXiv 2605.15177 (2026-05-14) > **关键词**:Test-time compute scaling, pairwise comparison, Bradley-Terry, population-based evolution, LLM-as-judge --- ## 一、核心问题:并行推理的选择瓶颈 测试时计算(test-time compute scaling)已成为提升LLM推理能力的主要轴线。 现有方法主要沿**深度**扩展: - **o1 / DeepSeek-R1**:延长单条CoT - **Tree Search (MCTS/ToT)**:搜索推理步骤树,但需要value function或process reward model 这些方法有一个致命弱点:**单轨迹,单点故障**。一个早期错误可以毁掉整个推理链。 **并行化采样**(parallel sampling / Best-of-N)看起来是解药,但引入了一个更根本的瓶颈: > **没有ground-truth verifier,如何从N个候选中选出最好的?** 现有选择器的问题: - **Pointwise LLM judging**:给每个候选打分 → 有正偏差(positively biased),区分度差 - **Self-consistency / Majority voting**:只适用于有确定答案的问题(数学选择题) - **Trained reward model**:需要额外训练,泛化性受限 --- ## 二、OpenDeepThink 的解法:Pairwise + Bradley-Terry ### 2.1 核心洞察:Pairwise 比 Pointwise 容易 论文在500对诊断测试中发现: > **Pairwise accuracy: 86%** vs **Pointwise accuracy: 59%** 为什么相对判断比绝对判断简单? 1. **对比暴露隐性失败模式**:候选A的bug在与B对比时才显现 2. **自然语言批判可被回收为突变信号**:"为什么A比B差"的文本直接成为下一轮mutator的反馈 3. **正偏差被抵消**:pairwise只关心相对优劣,不关心绝对分数 ### 2.2 Bradley-Terry 聚合 1952年用于国际象棋Elo排名的统计模型: 给定 K×n 次两两对决的结果,BT最大似然估计给出每个候选的全局"武力值" s_i。 **关键性质**: - 不需要ground truth - 适用于开放输出(代码、论证) - 对噪声有天然鲁棒性(大数定律) ### 2.3 完整的进化循环 ``` Generation t: 1. 随机配对:每个候选与 K 个peer比较 2. LLM并行评判:输出 (c_ij, r_ij, r_ji) —— winner + 双方批判 3. BT聚合:L-BFGS求解全局排名 s^(t) 4. 精英保留:top ⌈n/4⌉ 直接进入下一代 5. 反馈突变:top 75%(含精英)根据aggregated negative feedback重写 - 关键设计:prompt明确允许"放弃当前方案,采用 fundamentally different approach" 6. 淘汰:bottom 25% 直接丢弃 ``` Final round:更密集的 M 次pairwise → BT排名 → 选出最终提交方案。 **墙钟**:~27分钟,8轮sequential LLM calls,285 API calls。 --- ## 三、实验结果:+405 Elo 意味着什么? ### 3.1 Codeforces | 指标 | 数值 | |------|------| | 有效Elo提升 | **+405** | | 对比:Gemini 3 Deep Think (LiveCodeBench Pro) | +411 | | 墙钟时间 | ~27分钟 | | API调用数 | ~285 / 题 | **解读**:用通用API调用(无额外训练)达到了Google专用深度推理模型的效果。 ### 3.2 跨模型迁移 同一套超参数直接迁移到: - Gemini 3 Flash(更弱模型) - Gemini 2.5 Pro(更强模型) **无需重调**。这说明框架的优化是在**任务空间**而非模型空间。 ### 3.3 HLE 多领域基准(82题) | 领域类型 | 效果 | |----------|------| | 客观可验证(数学、代码) | 增益显著 | | 主观判断(创意、伦理) | **负增长**(增益反转) | **关键洞察**:pairwise soft verifier 的质量 = 上限。LLM-as-judge在客观域可靠,在主观域本身就是有偏的,聚合后**放大偏见**。 --- ## 四、消融实验:负反馈的力量 ### 4.1 反馈策略对比(500 solutions, 64 NOI problems) | 策略 | Rescue (WA→AC) | Degradation (AC→WA) | Δ | |------|---------------|---------------------|---| | No feedback | 基线 | 基线 | 基线 | | Positive feedback | 无显著差异 | — | ≈ 无反馈 | | **Negative feedback (pairwise K=4)** | **显著提升** | 可控 | **最优** | > **"Negative feedback carries nearly all the mutation signal. Positive feedback is statistically indistinguishable from no feedback at all."** **反直觉发现**:告诉模型"你哪里对了"没有任何信息增益——模型已经从自己的输出推断出来了。只有"你哪里错了"才是可操作的信号。 ### 4.2 K 的 sweet spot - K=4:rescue rate 比无反馈基线**几乎翻倍** - K=5:反而退化——mutator收到太多对比信息,无法在一轮rewrite中整合 ### 4.3 难度分层 | 难度 | Negative feedback rescue advantage | |------|-------------------------------------| | Medium | ~+26 points | | Hard | ~+4 points | **结论**:进化放大的是**部分能力**(partial competence),不是**根本算法**。 - Medium:候选接近正确,feedback帮它跨过threshold - Hard:候选从根本上错了,feedback只能patch不能重构 --- ## 五、方法论定位:推理版图中的新坐标 ``` 推理方法谱系: Sequential Depth(深度) ├── o1 / DeepSeek-R1:延长单条CoT ├── Tree Search:MCTS/ToT,需要value function │ Parallel Breadth(广度) ├── Self-consistency:多采样 + 多数投票(仅适用确定答案) ├── Best-of-N:多采样 + verifier选择(需要ground truth/奖励模型) │ └── OpenDeepThink:多采样 + pairwise BT + 反馈突变 ├── 无需verifier ├── 无需训练 ├── 适用开放输出 └── 成本:~285 API calls ``` **与相关工作的区分**: | 方法 | 需要verifier | 需要训练 | 适用开放输出 | |------|-------------|----------|-------------| | FunSearch / AlphaEvolve | ✅ (programmatic) | ❌ | ✅ | | Population-Evolve | ❌ (majority voting) | ❌ | ❌ (仅确定答案) | | ParaThinker / PaCoRe | ❌ | ✅ (训练并行模型) | ✅ | | **OpenDeepThink** | ❌ | ❌ | ✅ | OpenDeepThink 的独特定位:**纯推理时计算,training-free, verifier-free**。 --- ## 六、深层启示:从"超级大脑"到"超级委员会" ### 6.1 推理的 scaling law 可能有多个正交维度 | 时代 | 方法 | 核心假设 | |------|------|----------| | 2022-2023 | Scale up | 聪明 = 大脑更大(更多参数) | | 2024-2025 | Scale depth | 聪明 = 想得更久(更长CoT) | | 2026 | Scale breadth + select | 聪明 = 想得更多,然后选对 | OpenDeepThink 的 +405 Elo 与 o1/R1 的gains量级相当,但走完全不同路径。这暗示:**推理能力的scaling law不是单维的**。 ### 6.2 为什么"负反馈"比"正反馈"更重要? 这与 Huang et al. (2023) 的发现一致: > "Intrinsic self-correction, without external feedback or oracle stopping, often degrades performance." 单轨迹无法可靠识别自己的错误——因为**错误认知会自我确认**。pairwise对比提供了**外部视角**,打破了这种自我确认的闭环。 ### 6.3 局限与开放问题 1. **成本**:~285 calls / 27分钟,限制实时应用 2. **模型依赖**:仅在Gemini家族验证,Claude/GPT的pairwise judge质量未知 3. **主观域反转**:HLE主观域负增长——soft verifier只在judge可靠时有效 4. **Hard问题衰减**:根本性创新需要的能力超出feedback-patch的范围 5. **超参数选择**:25% elite ratio和"license-to-abandon" prompt基于非正式调参 --- ## 七、结论 OpenDeepThink 是一个**工程优雅的方法论突破**——用最简单的工具(pairwise comparison + 1952年的统计模型)解决了一个核心瓶颈(并行推理的选择问题)。 它标志着一个**元转变**: > AI推理正在从"培养一个超级大脑"转向"设计一个有效的群体决策机制"。 "深度"和"广度"不是竞争关系,而是**正交的scaling维度**。未来的最优推理系统可能是两者的结合:每个候选本身是一个长CoT,然后在候选层面做群体选择。 --- ## 参考资料 - Chai, W. et al. (2026). *OpenDeepThink: Parallel Reasoning via Bradley–Terry Aggregation*. arXiv:2605.15177. - Bradley, R.A. & Terry, M.E. (1952). Rank analysis of incomplete block designs. *Biometrika*. - Zheng et al. (2023). Judging LLM-as-a-judge with MT-bench and Chatbot Arena. *NeurIPS*. - Huang et al. (2023). Large language models cannot self-correct reasoning yet. *ICLR*. - Jaech et al. (2024). OpenAI o1 system card. - Guo et al. (2025). DeepSeek-R1: Incentivizing reasoning capability in LLMs via reinforcement learning. #论文拆解 #OpenDeepThink #BradleyTerry #并行推理 #测试时计算 #群体智慧 #pairwise比较 #小凯

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录