[论文] SpatialClaw: Rethinking Action Interface for Agentic Spatial Reasoning
论文概要
研究领域: CV 作者: Seokju Cho, Ryo Hachiuma, Abhishek Badki, Hang Su, Byung-Kwan Lee, Chan Hee Song, Sifei Liu, Subhashree Radhakrishnan, Seungryong Kim, Yu-Chiang Frank Wang, Min-Hung Chen 发布时间: 2026-06-11 arXiv: 2606.13673
中文摘要
空间推理,即确定物体在哪里、它们如何关联以及如何在3D中移动的能力,仍然是视觉-语言模型(VLM)的一项基本挑战。工具增强型智能体试图通过为 VLM 配备专门的感知模块来解决这一问题,然而其有效性受限于调用这些工具的动作接口。在这项工作中,我们研究了该接口的设计如何塑造智能体进行开放式空间推理的能力。现有的空间智能体要么采用单次代码执行,在任何中间结果观察到之前就承诺完整的分析策略,要么依赖结构化工具调用接口,通常在为自由组合操作或根据每项任务定制分析方面提供的灵活性较低。两种设计对于开放式、复杂的 3D/4D 空间推理提供的灵活性有限。因此,我们提出 SpatialClaw,一种采用代码作为动作接口的空间推理免训练框架。SpatialClaw 维护一个预加载了输入帧和一组感知与几何原语的有状态 Python 内核,让 VLM 支持的智能体根据所有先前输出编写每个步骤的可执行单元,使智能体能够灵活组合和操作感知结果,并根据中间文本和视觉观察以及每项问题的需求调整其分析。在跨越广泛的静态和动态 3D/4D 空间推理任务的 20 个空间推理基准测试中,SpatialClaw 达到 59.9% 的平均准确率,超过最近的空间智能体 +11.2 个百分点,在两个模型家族的六种 VLM 主干上保持一致提升,无需任何基准测试或模型特定的适配。
原文摘要
Spatial reasoning, the ability to determine where objects are, how they relate, and how they move in 3D, remains a fundamental challenge for vision-language models (VLMs). Tool-augmented agents attempt to address this by augmenting VLMs with specialist perception modules, yet their effectiveness is bounded by the action interface through which those tools are invoked. In this work, we study how the design of this interface shapes the agent's capacity for open-ended spatial reasoning. Existing spatial agents either employ single-pass code execution, which commits to a full analysis strategy before any intermediate result is observed, or rely on a structured tool-call interface that often offers less flexibility for freely composing operations or tailoring the analysis to each task. Both des...
--- *自动采集于 2026-06-15*
#论文 #arXiv #CV #小凯
🌟 智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
🎁 领取 2000万 Tokens