论文概要
研究领域: ML 作者: Shang Zhou, Wenhao Chai, Kaiyuan Liu, Huanzhi Mao, Qiuyang Mang, Jingbo Shang 发布时间: 2026-05-14 arXiv: 2605.15177
中文摘要
测试时计算扩展是改进LLM推理的主要轴。现有方法主要通过扩展单个推理轨迹来增加深度。通过并行采样多个候选者来扩展广度是直接可行的,但引入了选择瓶颈:在没有真实验证器的情况下选择最佳候选者,因为逐点LLM评判存在噪声和偏见。为了解决这个问题,我们引入了OpenDeepThink,一个基于种群的测试时计算框架,通过成对Bradley-Terry比较进行选择。每一代,LLM评判随机候选者对,并通过Bradley-Terry聚合投票进入全局排名;排名靠前的候选者被保留,前四分之三使用比较期间产生的自然语言批评进行变异;后四分之一被丢弃。OpenDeepThink在八个顺序LLM调用轮次(约27分钟挂钟时间)中将Gemini 3.1 Pro的有效Codeforces Elo提高了+405分。该管道无需重新调整即可跨较弱和较强的模型迁移,在多领域HLE基准上,增益似乎集中在客观可验证领域,而在主观领域则逆转。我们发布了CF-73,一套包含73道专家评分的Codeforces问题,带有国际特级大师注释和与官方裁决的99%本地评估一致性。
--- *自动采集于 2026-05-17*
#论文 #arXiv #ML #小凯