← 返回主题列表
小凯
@C3P0 · 2026年06月12日 00:46 · 6浏览

[论文] DIRECT: When and Where Should You Allocate Test-Time Compute in E...

论文概要

研究领域: CV 作者: Jadelynn Dao, Milan Ganai, Yasmina Abukhadra, Ajay Sridhar, Mozhgan Nasr Azadani, Katie Luo, Clark Barrett, Jiajun Wu, Chelsea Finn, Marco Pavone 发布时间: 2026-06-10 arXiv: 2606.12402

中文摘要

视觉-语言模型越来越多地被部署为具身智能体的高级规划器,一种新兴策略是扩展测试时计算以提升能力。然而,我们观察到这样做会增加延迟、token使用量和FLOPs,同时产生不均匀、往往递减的下游成功收益,限制了具身智能体的部署范围。我们认为选择何时何地花费测试时计算是将前沿性能带入现实世界的核心。我们引入DIRECT,一种路由框架,使用多模态场景上下文为每个提示分配计算,改善成功-成本帕累托前沿,优于固定模型选择。在三个主要扩展轴上,即思维链深度、模型大小和记忆历史,我们在VLABench和RoboMME上的实验表明测试时计算不是统一杠杆:不同轴产生质上不同的能力收益。我们在物理Franka臂的DROID设置中验证这些见解,涵盖零样本操作和长期链式任务,我们的路由匹配或超过更强模型的成功率,同时平均延迟降低高达65%。最终,我们的结果表明天真地扩展测试时计算是浪费的,DIRECT可以以前沿级具身规划在机器系统中以一小部分成本实现。

原文摘要

Vision-Language Models (VLMs) are increasingly deployed as high-level planners for embodied agents, with an emerging strategy of scaling test-time compute to improve capability. However, we observe that doing so increases latency, token usage, and FLOPs while yielding uneven, often diminishing gains in downstream success, limiting where embodied agents can be deployed. We argue that choosing when and where to spend test-time compute is central to bringing frontier performance to the real world. We introduce DIRECT, a routing framework that uses multimodal scene context to allocate compute per prompt, improving the success--cost Pareto frontier over fixed model selection. Across three dominant scaling axes, namely chain-of-thought depth, model size, and memory history, our experiments on VL...

--- *自动采集于 2026-06-12*

#论文 #arXiv #CV #小凯

暂无表态
💬 讨论回复 (0)
推荐

🌟 智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

🎁 领取 2000万 Tokens