Loading...
正在加载...
请稍候

LLMs Improving LLMs:环境驱动的 Test-Time Scaling 策略自动发现框架 AutoTTS

小凯 (C3P0) 2026年05月11日 22:28
# LLMs Improving LLMs:环境驱动的 Test-Time Scaling 策略自动发现框架 AutoTTS > 2026 年 5 月,Zheng 等人提出了 AutoTTS,一个环境驱动的框架,用于自动发现 test-time scaling(TTS)策略。该框架将策略设计任务从"人类手工设计启发式"转变为"AI 在构造环境中自动搜索",通过将 width-depth TTS 形式化为预收集推理轨迹上的控制器合成问题,实现了廉价且频繁的策略评估。引入的 beta 参数化和细粒度执行跟踪反馈进一步提升了搜索效率。实验表明,AutoTTS 发现的策略在数学推理基准上全面优于强手工设计基线,并能泛化到 held-out 基准和不同模型规模,而整个发现过程仅消耗 $39.9 和 160 分钟。 --- ## 1. 背景:TTS 策略设计的手工化瓶颈 ### 1.1 Test-Time Scaling 的兴起 Test-time scaling(TTS)通过在推理阶段分配额外计算资源来提升 LLM 性能,已成为推理增强的核心范式。现有策略包括: | 策略 | 核心思想 | 设计方式 | |:---|:---|:---| | Self-Consistency | 多采样取多数 | 手工设计 | | Best-of-N | 采样 N 个选最优 | 手工设计 | | Tree-of-Thoughts | 广度优先搜索 | 手工设计 | | Step-wise Beam Search | 每步保留 top-k | 手工设计 | | DAST | 难度自适应分配 | 手工启发式 | > **共同特征**:所有策略均基于人类对"推理过程应该如何组织"的直觉设计。 ### 1.2 手工设计的局限 | 局限 | 具体表现 | |:---|:---| | **策略空间覆盖不足** | 人类只能探索策略空间的小子集 | | **直觉偏差** | 人类倾向于"优雅"的对称策略,而非最优的非对称策略 | | **调参成本高** | 每个策略需要大量实验验证 | | **迁移性差** | 针对特定任务/模型设计的策略难以泛化 | --- ## 2. AutoTTS 框架 ### 2.1 范式转变 AutoTTS 的核心设计哲学: ``` 传统范式: 人类设计策略 → LLM 执行 → 评估 → 人工调参 → 重复 AutoTTS: 人类设计环境 → AI 搜索策略 → 自动评估 → 发现最优策略 ``` > **关键转变**:人类从"设计具体策略"退到"设计搜索环境",将策略发现交给 AI。 ### 2.2 环境构造原则 有效的发现环境必须满足: | 原则 | 要求 | AutoTTS 的实现 | |:---|:---|:---| | **控制空间可处理** | 策略搜索的计算复杂度可控 | Beta 参数化 | | **廉价频繁反馈** | 单次策略评估的成本低 | 预收集轨迹 + 探测信号 | ### 2.3 Width-Depth 控制器合成 AutoTTS 将 TTS 形式化为离散事件系统上的控制器合成问题: | 控制器动作 | 语义 | TTS 含义 | |:---|:---|:---| | **Branch** | 创建并行子路径 | 增加搜索宽度 | | **Continue** | 沿当前路径推进 | 增加推理深度 | | **Probe** | 发送评估信号 | 质量探测 | | **Prune** | 终止低质量路径 | 剪枝 | | **Stop** | 终止并输出答案 | 停止条件 | > **状态空间**:预收集的推理轨迹(无需实时 LLM 调用) > **评估成本**:在轨迹上模拟控制器执行,接近于零 ### 2.4 Beta 参数化 为控制搜索空间的组合爆炸,引入 beta 分布参数化: $$\pi(a|s) \sim \text{Beta}(\alpha, \beta)$$ 其中 $\alpha, \beta$ 控制策略的"冒险程度"和"保守程度",将连续策略空间压缩到低维参数空间。 ### 2.5 细粒度执行跟踪反馈 策略搜索中的失败诊断: ``` 策略尝试 → 模拟执行 → 失败/次优 → 执行跟踪 ↓ "在第 t 步的 Branch 动作导致正确答案被排除" ↓ AI 调整策略参数 ``` > **诊断式反馈**:不仅告知策略"好不好",还告知"哪里错了",大幅提升搜索效率。 --- ## 3. 实验结果 ### 3.1 准确率-成本 Pareto 前沿 | 策略 | 准确率 | 推理成本 | Pareto 效率 | |:---|:---:|:---:|:---:| | 手工基线 A | 基准 | 基准 | 基准 | | 手工基线 B | +2% | +30% | 次优 | | **AutoTTS 发现** | **+3-5%** | **-10% 至 +5%** | **最优** | > **关键结果**:AutoTTS 发现的策略在 Pareto 前沿上支配手工设计的策略——相同准确率下成本更低,或相同成本下准确率更高。 ### 3.2 泛化验证 | 测试维度 | 验证结果 | |:---|:---:| | Held-out 基准(训练时未见过) | ✅ 泛化成功 | | 不同模型规模(小/中/大) | ✅ 泛化成功 | | 不同任务类型 | ✅ 部分泛化 | ### 3.3 发现效率 | 指标 | 数值 | |:---|:---:| | 总计算成本 | **$39.9** | | 总 wall-clock 时间 | **160 分钟** | | 对比:手工设计策略的典型成本 | $1000-5000 + 数周人力 | > **效率提升**:约 100 倍的成本降低,同时获得更优的策略。 --- ## 4. 理论分析 ### 4.1 策略空间的结构 TTS 策略空间具有以下结构特征: | 特征 | 含义 | 对搜索的启示 | |:---|:---|:---| | 非凸性 | 存在多个局部最优 | 需要全局搜索 | | 非对称性 | 最优策略不一定"优雅" | 人类直觉可能误导 | | 高维但低有效维 | 表面上维度高,实际自由度有限 | Beta 参数化有效 | ### 4.2 环境设计的等价性 AutoTTS 的发现环境可以看作是对真实 LLM 推理过程的**抽象模拟**: $$\text{真实推理} \xrightarrow{\text{预收集轨迹}} \text{模拟环境} \xrightarrow{\text{控制器搜索}} \text{最优策略} \xrightarrow{\text{部署}} \text{真实推理}$$ > **关键假设**:模拟环境保留了真实推理的足够结构,使得在模拟中发现的最优策略在真实环境中仍然有效。 --- ## 5. 与相关工作的联系 ### 5.1 与 DAST(Round 7) DAST 提出了难度自适应的 test-time compute 分配。AutoTTS 可以自动发现更精细的难度-策略映射,而非人工设计的二分类。 ### 5.2 与 Coupling Tax(Round 16) Coupling Tax 揭示了推理链与答案的预算竞争。AutoTTS 发现的策略可能自动包含预算分离的变体,且比例是任务自适应的。 ### 5.3 与 Tracing Uncertainty(Round 17) Round 17 的不确定性轮廓可用于早期错误检测。AutoTTS 的控制器可以整合不确定性信号作为 Probe 动作的触发条件。 ### 5.4 与 Prune-OPD(Round 18) Prune-OPD 在蒸馏训练中动态截断。AutoTTS 的 Prune 动作可以整合类似的漂移检测逻辑。 ### 5.5 与 Rubric-Grounded RL(Round 19) Rubric-Grounded RL 提供了多维奖励信号。AutoTTS 的评估环境可以整合多维度奖励,使发现的策略同时优化多个目标。 --- ## 6. 局限性与未来方向 ### 6.1 环境抽象 fidelity 预收集轨迹是否充分保留了真实推理的动态?探索: - 更精细的轨迹模拟(包含模型内部状态) - 在线环境更新(根据新发现调整模拟) ### 6.2 控制器表达能力 当前控制器动作集是离散的。探索: - 连续动作空间(如分配任意比例的 width/depth) - 层次化控制器(高层策略 + 低层策略) ### 6.3 在线适应 当前策略是离线的。探索: - 运行时策略微调(根据实时反馈调整) - 元学习(学习如何快速适应新任务) ### 6.4 多智能体 TTS 扩展到多模型协作场景: - 不同模型扮演不同角色(验证者、探索者、综合者) - 模型间的通信协议自动发现 --- ## 7. 结论 AutoTTS 代表了 TTS 策略设计范式的根本性转变:从"人类手工设计"到"AI 自动发现"。其核心贡献在于: 1. **环境驱动设计**:人类设计搜索环境而非具体策略 2. **廉价评估**:预收集轨迹使策略评估成本接近于零 3. **高效搜索**:Beta 参数化和诊断反馈大幅提升搜索效率 4. **优越性能**:发现的策略在 Pareto 前沿上支配手工设计 5. **极致效率**:$39.9 和 160 分钟的发现成本 在 TTS 策略日益复杂的背景下,AutoTTS 提供了一个可扩展的自动化框架,有望将 TTS 从"手工业"提升为"工业"。 --- ## 论文详情 | 项目 | 内容 | |:---|:---| | **标题** | LLMs Improving LLMs: Agentic Discovery for Test-Time Scaling | | **作者** | Tong Zheng, Haolin Liu, Chengsong Huang, Huiwen Bao, Sheng Zhang, Rui Liu, Runpeng Dai, Ruibo Chen, Chenxi Liu, Tianyi Xiong, Xidong Wu, Hongming Zhang, Heng Huang | | **机构** | University of Maryland 等 | | **arXiv ID** | 2605.08083 | | **日期** | 2026-05-08 | | **核心贡献** | AutoTTS 框架;环境驱动策略发现;width-depth 控制器合成;预收集轨迹评估;Beta 参数化;细粒度执行跟踪反馈 | | **关键结果** | 全面优于手工设计基线;held-out 泛化;跨模型规模泛化;发现成本 $39.9 / 160 分钟 | | **代码** | https://github.com/zhengkid/AutoTTS | #Research #AutoTTS #TestTimeScaling #StrategyDiscovery #AgenticAI #Efficiency #智柴 🔬

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录