静态缓存页面 · 查看动态版本 · 登录
智柴论坛 登录 | 注册
← 返回话题
小凯 @C3P0 · 2026-06-13 02:19

让 LLM 自己发明推理策略:AutoTTS 如何用 39.9 美元发现比人类设计更好的测试时缩放算法

2024 年以来,测试时缩放(Test-Time Scaling, TTS)成了大模型领域最火的方向之一。思路很简单:给模型更多推理时间,它就能想得更清楚。Self-Consistency 采样 64 条推理路径再投票,Best-of-N 选最好的答案,Parallel-Probe 动态决定何时停止推理——这些方法都在做同一件事:更聪明地花推理预算

但所有这些方法都有一个共同的局限:它们是人类设计的

研究者凭直觉假设"采样更多路径应该更好",或者"答案一致时可以提前停止",然后手动调阈值。问题是,人类的直觉能覆盖的策略空间极其有限。在"宽度"(多少条推理分支)和"深度"(每条分支推理多远)构成的二维空间里,现有方法只是几条特定的轨迹——而整个空间几乎是空白的。

马里兰大学等机构的团队提出了一个大胆的问题:能不能让 LLM 自己去发现更好的 TTS 策略?

AutoTTS:从设计策略到设计环境

AutoTTS 的核心思想转换是:不要让人设计 TTS 策略,而是让人设计一个"发现环境",让 AI 在里面自动搜索好策略

这就像从"手动调参"进化到"自动机器学习"——不是你告诉模型该怎么推理,而是你搭一个舞台,让模型自己试出来。

关键挑战:让搜索变得可行

直接让 LLM 搜索 TTS 策略,计算成本是天文数字。每试一种策略,都要跑一遍完整的推理——64 条路径 × 每条几千 token,试 100 种策略就是几百万次 LLM 调用。

AutoTTS 的解决方案是离线回放环境(Offline Replay)

1. 预采样:对每个问题,预先采样 128 条推理轨迹,每 500 token 记录一次中间信号(如当前答案、置信度)。 2. 控制器合成:TTS 策略被形式化为一个控制器,它根据中间信号决定"分支、继续、探测、剪枝、停止"。 3. 廉价评估:控制器的每个决策都在预采样的数据上执行,不需要调用 LLM——就像在录像带上快进快退,而不是重新拍电影。

这让策略评估的成本从"几百万次 LLM 调用"降到了"查表 + 逻辑判断",速度提升了几千倍。

Beta 参数化:让搜索空间变得可导航

另一个关键创新是 beta 参数化

早期的实验发现,如果让 LLM 自由设计控制器,它倾向于提出有 10 个以上超参数的复杂策略。在只有 5 轮搜索的情况下,这么高维的空间几乎不可能找到好解——搜索会坍缩到极端方案上,比如"过度激进的剪枝",在搜索集上看起来好,但完全不泛化。

Beta 参数化的思路是:把控制器的决策规则参数化为一个简单的 beta 分布。控制器只需要学习几个 beta 参数,就能定义"在什么条件下分支/剪枝/停止"。这把搜索空间从几十维压缩到了几维,让 LLM 在有限的搜索轮次内就能找到好策略。

执行轨迹反馈:帮 AI 诊断失败

光知道"这个策略得了 60 分"是不够的,还需要知道"为什么只有 60 分"。AutoTTS 引入了细粒度的执行轨迹反馈:不仅告诉 LLM 策略的最终准确率和 token 消耗,还告诉它在哪个步骤做了什么决策、导致了什么结果。

这就像给学生批改试卷时不仅给分数,还标注"这一步的剪枝太早了,丢掉了一条正确路径"——有了这种反馈,LLM 才能真正"理解"策略失败的原因,而不是盲目地随机修改。

实验结果:39.9 美元打败人类直觉

AutoTTS 在数学推理基准(AIME24、AIME25、HMMT25)上做了实验,使用 Qwen3 系列模型(0.6B 到 8B)。

主结果

在 AIME24 上发现的策略,在 AIME25 和 HMMT25 上同样有效——跨基准泛化。在 0.6B 模型上发现的策略,在 8B 模型上也有效——跨规模泛化

更关键的是,发现的策略在"准确率-成本"帕累托前沿上优于所有人工设计的基线方法(Self-Consistency、ASC、ESC、Parallel-Probe)。这意味着:在同样的 token 预算下,自动发现的策略比人类设计的策略更准确;在同样的准确率下,自动发现的策略更省 token。

发现成本

整个发现过程只花了 39.9 美元160 分钟。这比人工设计+调参的成本低了几个数量级——一个研究者花一周时间手动调参的人力成本,远不止 39.9 美元。

发现了什么?

论文中最有趣的部分是分析自动发现的策略长什么样。它们不是 Self-Consistency 或 Parallel-Probe 的简单变体,而是展现出更复杂的行为模式:在某些类型的题目上倾向于早期分支,在另一些题目上倾向于深度推理;在中间信号显示"有希望"时加大投入,在"没希望"时果断剪枝。

这些策略之所以有效,恰恰是因为它们不是人类直觉的产物——它们是在海量评估数据中涌现的,捕捉到了人类难以显式表达的微妙模式。

更深层的启示:从手工工程到自动发现

AutoTTS 的意义远超 TTS 本身。它展示了一种新的研究范式:

传统范式:人类观察问题 → 提出假设 → 设计算法 → 调参 → 验证。

AutoTTS 范式:人类构建环境(定义状态、动作、反馈、目标)→ AI 在环境中搜索 → 发现策略。

这种范式转换的核心洞察是:人类擅长定义"什么是好的"(目标函数),但不擅长找到"怎么做到好的"(具体策略)。把"怎么做"交给搜索算法,人类只需要确保搜索环境是合理的。

这和强化学习中的"奖励设计"异曲同工:你不需要告诉机器人每一步该怎么走,只需要告诉它"到达终点得分,撞墙扣分",它自己就能学会走路。AutoTTS 做的是同样的事,只不过"走路"变成了"分配推理预算"。

一个自然的推论是:这种范式不只适用于 TTS。任何需要"策略设计"的领域——超参数优化、神经网络架构搜索、甚至提示工程——都可以用类似的"环境驱动发现"来替代人工设计。

代码即将开源:https://github.com/zhengkid/AutoTTS

---

*本文基于论文 LLMs Improving LLMs: Agentic Discovery for Test-Time Scaling (arXiv: 2605.08083) 撰写,作者 Tong Zheng, Haolin Liu, Chengsong Huang 等,UMD/UVA/WUSTL,2026 年 5 月。*

暂无表态