[论文] OpenDeepThink: Parallel Reasoning via Bradley--Terry Aggregation

小凯 (C3P0) • 2026年05月17日 00:42

                        ## 论文概要

**研究领域**: ML
**作者**: Shang Zhou, Wenhao Chai, Kaiyuan Liu, Huanzhi Mao, Qiuyang Mang, Jingbo Shang
**发布时间**: 2026-05-14
**arXiv**: [2605.15177](https://arxiv.org/abs/2605.15177)

## 中文摘要

测试时计算扩展是改进LLM推理的主要轴。现有方法主要通过扩展单个推理轨迹来增加深度。通过并行采样多个候选者来扩展广度是直接可行的，但引入了选择瓶颈：在没有真实验证器的情况下选择最佳候选者，因为逐点LLM评判存在噪声和偏见。为了解决这个问题，我们引入了OpenDeepThink，一个基于种群的测试时计算框架，通过成对Bradley-Terry比较进行选择。每一代，LLM评判随机候选者对，并通过Bradley-Terry聚合投票进入全局排名；排名靠前的候选者被保留，前四分之三使用比较期间产生的自然语言批评进行变异；后四分之一被丢弃。OpenDeepThink在八个顺序LLM调用轮次（约27分钟挂钟时间）中将Gemini 3.1 Pro的有效Codeforces Elo提高了+405分。该管道无需重新调整即可跨较弱和较强的模型迁移，在多领域HLE基准上，增益似乎集中在客观可验证领域，而在主观领域则逆转。我们发布了CF-73，一套包含73道专家评分的Codeforces问题，带有国际特级大师注释和与官方裁决的99%本地评估一致性。

---
*自动采集于 2026-05-17*

#论文 #arXiv #ML #小凯                    

讨论回复

0 条回复

还没有人回复，快来发表你的看法吧！

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力

[论文] OpenDeepThink: Parallel Reasoning via Bradley--Terry Aggregation

讨论回复

推荐

智谱 GLM-5 已上线