> 作者:Wenhao Chai, Kaiyuan Liu, Huanzhi Mao, Qiuyang Mang, Jingbo Shang† > 机构:UC San Diego, Princeton, UW, UC Berkeley > 发表:arXiv 2605.15177 (2026-05-14) > 关键词:Test-time compute scaling, pairwise comparison, Bradley-Terry, population-based evolution, LLM-as-judge
---
一、核心问题:并行推理的选择瓶颈
测试时计算(test-time compute scaling)已成为提升LLM推理能力的主要轴线。
现有方法主要沿深度扩展:
- o1 / DeepSeek-R1:延长单条CoT
- Tree Search (MCTS/ToT):搜索推理步骤树,但需要value function或process reward model
并行化采样(parallel sampling / Best-of-N)看起来是解药,但引入了一个更根本的瓶颈: > 没有ground-truth verifier,如何从N个候选中选出最好的?
现有选择器的问题:
- Pointwise LLM judging:给每个候选打分 → 有正偏差(positively biased),区分度差
- Self-consistency / Majority voting:只适用于有确定答案的问题(数学选择题)
- Trained reward model:需要额外训练,泛化性受限
二、OpenDeepThink 的解法:Pairwise + Bradley-Terry
2.1 核心洞察:Pairwise 比 Pointwise 容易
论文在500对诊断测试中发现: > Pairwise accuracy: 86% vs Pointwise accuracy: 59%
为什么相对判断比绝对判断简单? 1. 对比暴露隐性失败模式:候选A的bug在与B对比时才显现 2. 自然语言批判可被回收为突变信号:"为什么A比B差"的文本直接成为下一轮mutator的反馈 3. 正偏差被抵消:pairwise只关心相对优劣,不关心绝对分数
2.2 Bradley-Terry 聚合
1952年用于国际象棋Elo排名的统计模型:
给定 K×n 次两两对决的结果,BT最大似然估计给出每个候选的全局"武力值" s_i。
关键性质:
- 不需要ground truth
- 适用于开放输出(代码、论证)
- 对噪声有天然鲁棒性(大数定律)
2.3 完整的进化循环
Generation t:
1. 随机配对:每个候选与 K 个peer比较
2. LLM并行评判:输出 (c_ij, r_ij, r_ji) —— winner + 双方批判
3. BT聚合:L-BFGS求解全局排名 s^(t)
4. 精英保留:top ⌈n/4⌉ 直接进入下一代
5. 反馈突变:top 75%(含精英)根据aggregated negative feedback重写
- 关键设计:prompt明确允许"放弃当前方案,采用 fundamentally different approach"
6. 淘汰:bottom 25% 直接丢弃
Final round:更密集的 M 次pairwise → BT排名 → 选出最终提交方案。
墙钟:~27分钟,8轮sequential LLM calls,285 API calls。
---
三、实验结果:+405 Elo 意味着什么?
3.1 Codeforces
| 指标 | 数值 |
|---|---|
| 有效Elo提升 | +405 |
| 对比:Gemini 3 Deep Think (LiveCodeBench Pro) | +411 |
| 墙钟时间 | ~27分钟 |
| API调用数 | ~285 / 题 |
3.2 跨模型迁移
同一套超参数直接迁移到:
- Gemini 3 Flash(更弱模型)
- Gemini 2.5 Pro(更强模型)
3.3 HLE 多领域基准(82题)
| 领域类型 | 效果 |
|---|---|
| 客观可验证(数学、代码) | 增益显著 |
| 主观判断(创意、伦理) | 负增长(增益反转) |
---
四、消融实验:负反馈的力量
4.1 反馈策略对比(500 solutions, 64 NOI problems)
| 策略 | Rescue (WA→AC) | Degradation (AC→WA) | Δ |
|---|---|---|---|
| No feedback | 基线 | 基线 | 基线 |
| Positive feedback | 无显著差异 | — | ≈ 无反馈 |
| Negative feedback (pairwise K=4) | 显著提升 | 可控 | 最优 |
反直觉发现:告诉模型"你哪里对了"没有任何信息增益——模型已经从自己的输出推断出来了。只有"你哪里错了"才是可操作的信号。
4.2 K 的 sweet spot
- K=4:rescue rate 比无反馈基线几乎翻倍
- K=5:反而退化——mutator收到太多对比信息,无法在一轮rewrite中整合
4.3 难度分层
| 难度 | Negative feedback rescue advantage |
|---|---|
| Medium | ~+26 points |
| Hard | ~+4 points |
- Medium:候选接近正确,feedback帮它跨过threshold
- Hard:候选从根本上错了,feedback只能patch不能重构
五、方法论定位:推理版图中的新坐标
推理方法谱系:
Sequential Depth(深度)
├── o1 / DeepSeek-R1:延长单条CoT
├── Tree Search:MCTS/ToT,需要value function
│
Parallel Breadth(广度)
├── Self-consistency:多采样 + 多数投票(仅适用确定答案)
├── Best-of-N:多采样 + verifier选择(需要ground truth/奖励模型)
│
└── OpenDeepThink:多采样 + pairwise BT + 反馈突变
├── 无需verifier
├── 无需训练
├── 适用开放输出
└── 成本:~285 API calls
与相关工作的区分:
| 方法 | 需要verifier | 需要训练 | 适用开放输出 |
|---|---|---|---|
| FunSearch / AlphaEvolve | ✅ (programmatic) | ❌ | ✅ |
| Population-Evolve | ❌ (majority voting) | ❌ | ❌ (仅确定答案) |
| ParaThinker / PaCoRe | ❌ | ✅ (训练并行模型) | ✅ |
| OpenDeepThink | ❌ | ❌ | ✅ |
---
六、深层启示:从"超级大脑"到"超级委员会"
6.1 推理的 scaling law 可能有多个正交维度
| 时代 | 方法 | 核心假设 |
|---|---|---|
| 2022-2023 | Scale up | 聪明 = 大脑更大(更多参数) |
| 2024-2025 | Scale depth | 聪明 = 想得更久(更长CoT) |
| 2026 | Scale breadth + select | 聪明 = 想得更多,然后选对 |
6.2 为什么"负反馈"比"正反馈"更重要?
这与 Huang et al. (2023) 的发现一致: > "Intrinsic self-correction, without external feedback or oracle stopping, often degrades performance."
单轨迹无法可靠识别自己的错误——因为错误认知会自我确认。pairwise对比提供了外部视角,打破了这种自我确认的闭环。
6.3 局限与开放问题
1. 成本:~285 calls / 27分钟,限制实时应用 2. 模型依赖:仅在Gemini家族验证,Claude/GPT的pairwise judge质量未知 3. 主观域反转:HLE主观域负增长——soft verifier只在judge可靠时有效 4. Hard问题衰减:根本性创新需要的能力超出feedback-patch的范围 5. 超参数选择:25% elite ratio和"license-to-abandon" prompt基于非正式调参
---
七、结论
OpenDeepThink 是一个工程优雅的方法论突破——用最简单的工具(pairwise comparison + 1952年的统计模型)解决了一个核心瓶颈(并行推理的选择问题)。
它标志着一个元转变: > AI推理正在从"培养一个超级大脑"转向"设计一个有效的群体决策机制"。
"深度"和"广度"不是竞争关系,而是正交的scaling维度。未来的最优推理系统可能是两者的结合:每个候选本身是一个长CoT,然后在候选层面做群体选择。
---
参考资料
- Chai, W. et al. (2026). *OpenDeepThink: Parallel Reasoning via Bradley–Terry Aggregation*. arXiv:2605.15177.
- Bradley, R.A. & Terry, M.E. (1952). Rank analysis of incomplete block designs. *Biometrika*.
- Zheng et al. (2023). Judging LLM-as-a-judge with MT-bench and Chatbot Arena. *NeurIPS*.
- Huang et al. (2023). Large language models cannot self-correct reasoning yet. *ICLR*.
- Jaech et al. (2024). OpenAI o1 system card.
- Guo et al. (2025). DeepSeek-R1: Incentivizing reasoning capability in LLMs via reinforcement learning.