让 LLM 自己发明推理策略：AutoTTS 如何用 39.9 美元发现比人类设计更好的测试时缩放算法

小凯 · 2026-05-12T00:45:52+00:00

## 论文概要 **研究领域**: NLP **作者**: Tong Zheng, Haolin Liu, Chengsong Huang **发布时间**: 2025-05-07 **arXiv**: [2505.05128](https://arxiv.org/abs/2505.05128) ## 中文摘要测试时缩放（TTS）已成为提升大语言模型性能的有效方法... ## 原文摘要 Test-time scaling (TTS) has become an effective approach... --- *自动采集于 2026-05-12* #论文 #arXiv #NLP #小凯

2024 年以来，测试时缩放（Test-Time Scaling, TTS）成了大模型领域最火的方向之一。思路很简单：给模型更多推理时间，它就能想得更清楚。Self-Consistency 采样 64 条推理路径再投票，Best-of-N 选最好的答案，Parallel-Probe 动态决定何时停止推理——这些方法都在做同一件事：更聪明地花推理预算。

但所有这些方法都有一个共同的局限：它们是人类设计的。

研究者凭直觉假设"采样更多路径应该更好"，或者"答案一致时可以提前停止"，然后手动调阈值。问题是，人类的直觉能覆盖的策略空间极其有限。在"宽度"（多少条推理分支）和"深度"（每条分支推理多远）构成的二维空间里，现有方法只是几条特定的轨迹——而整个空间几乎是空白的。

马里兰大学等机构的团队提出了一个大胆的问题：能不能让 LLM 自己去发现更好的 TTS 策略？

AutoTTS：从设计策略到设计环境

AutoTTS 的核心思想转换是：不要让人设计 TTS 策略，而是让人设计一个"发现环境"，让 AI 在里面自动搜索好策略。

这就像从"手动调参"进化到"自动机器学习"——不是你告诉模型该怎么推理，而是你搭一个舞台，让模型自己试出来。

关键挑战：让搜索变得可行

直接让 LLM 搜索 TTS 策略，计算成本是天文数字。每试一种策略，都要跑一遍完整的推理——64 条路径 × 每条几千 token，试 100 种策略就是几百万次 LLM 调用。

AutoTTS 的解决方案是离线回放环境（Offline Replay）：

1. 预采样：对每个问题，预先采样 128 条推理轨迹，每 500 token 记录一次中间信号（如当前答案、置信度）。 2. 控制器合成：TTS 策略被形式化为一个控制器，它根据中间信号决定"分支、继续、探测、剪枝、停止"。 3. 廉价评估：控制器的每个决策都在预采样的数据上执行，不需要调用 LLM——就像在录像带上快进快退，而不是重新拍电影。

这让策略评估的成本从"几百万次 LLM 调用"降到了"查表 + 逻辑判断"，速度提升了几千倍。

Beta 参数化：让搜索空间变得可导航

另一个关键创新是 beta 参数化。

早期的实验发现，如果让 LLM 自由设计控制器，它倾向于提出有 10 个以上超参数的复杂策略。在只有 5 轮搜索的情况下，这么高维的空间几乎不可能找到好解——搜索会坍缩到极端方案上，比如"过度激进的剪枝"，在搜索集上看起来好，但完全不泛化。

Beta 参数化的思路是：把控制器的决策规则参数化为一个简单的 beta 分布。控制器只需要学习几个 beta 参数，就能定义"在什么条件下分支/剪枝/停止"。这把搜索空间从几十维压缩到了几维，让 LLM 在有限的搜索轮次内就能找到好策略。

执行轨迹反馈：帮 AI 诊断失败

光知道"这个策略得了 60 分"是不够的，还需要知道"为什么只有 60 分"。AutoTTS 引入了细粒度的执行轨迹反馈：不仅告诉 LLM 策略的最终准确率和 token 消耗，还告诉它在哪个步骤做了什么决策、导致了什么结果。

这就像给学生批改试卷时不仅给分数，还标注"这一步的剪枝太早了，丢掉了一条正确路径"——有了这种反馈，LLM 才能真正"理解"策略失败的原因，而不是盲目地随机修改。

实验结果：39.9 美元打败人类直觉

AutoTTS 在数学推理基准（AIME24、AIME25、HMMT25）上做了实验，使用 Qwen3 系列模型（0.6B 到 8B）。

主结果

在 AIME24 上发现的策略，在 AIME25 和 HMMT25 上同样有效——跨基准泛化。在 0.6B 模型上发现的策略，在 8B 模型上也有效——跨规模泛化。

更关键的是，发现的策略在"准确率-成本"帕累托前沿上优于所有人工设计的基线方法（Self-Consistency、ASC、ESC、Parallel-Probe）。这意味着：在同样的 token 预算下，自动发现的策略比人类设计的策略更准确；在同样的准确率下，自动发现的策略更省 token。

发现成本

整个发现过程只花了 39.9 美元和 160 分钟。这比人工设计+调参的成本低了几个数量级——一个研究者花一周时间手动调参的人力成本，远不止 39.9 美元。

发现了什么？

论文中最有趣的部分是分析自动发现的策略长什么样。它们不是 Self-Consistency 或 Parallel-Probe 的简单变体，而是展现出更复杂的行为模式：在某些类型的题目上倾向于早期分支，在另一些题目上倾向于深度推理；在中间信号显示"有希望"时加大投入，在"没希望"时果断剪枝。

这些策略之所以有效，恰恰是因为它们不是人类直觉的产物——它们是在海量评估数据中涌现的，捕捉到了人类难以显式表达的微妙模式。

更深层的启示：从手工工程到自动发现

AutoTTS 的意义远超 TTS 本身。它展示了一种新的研究范式：

传统范式：人类观察问题 → 提出假设 → 设计算法 → 调参 → 验证。

AutoTTS 范式：人类构建环境（定义状态、动作、反馈、目标）→ AI 在环境中搜索 → 发现策略。

这种范式转换的核心洞察是：人类擅长定义"什么是好的"（目标函数），但不擅长找到"怎么做到好的"（具体策略）。把"怎么做"交给搜索算法，人类只需要确保搜索环境是合理的。

这和强化学习中的"奖励设计"异曲同工：你不需要告诉机器人每一步该怎么走，只需要告诉它"到达终点得分，撞墙扣分"，它自己就能学会走路。AutoTTS 做的是同样的事，只不过"走路"变成了"分配推理预算"。

一个自然的推论是：这种范式不只适用于 TTS。任何需要"策略设计"的领域——超参数优化、神经网络架构搜索、甚至提示工程——都可以用类似的"环境驱动发现"来替代人工设计。

代码即将开源：https://github.com/zhengkid/AutoTTS

---

*本文基于论文 LLMs Improving LLMs: Agentic Discovery for Test-Time Scaling (arXiv: 2605.08083) 撰写，作者 Tong Zheng, Haolin Liu, Chengsong Huang 等，UMD/UVA/WUSTL，2026 年 5 月。*