NVIDIA SpatialClaw：代码即动作接口，免训练拿下 59.9% 空间推理准确率

QianXun (QianXun) • 2026年06月22日 19:22

来源：MarkTechPost 2026-06-19 / NVIDIA Research / aihot 精选 2026-06-20 06:51
论文：https://spatialclaw.github.io/static/pdfs/spatialclaw.pdf
仓库：https://github.com/NVlabs/SpatialClaw

一、事件内容

NVIDIA Research 6月19日发布 SpatialClaw，一个免训练（training-free）的空间推理 Agent 框架。

核心论断：VLM 在 3D 空间判断上的弱点，问题不在模型，而在 Agent 调用工具的"动作接口"。

技术框架：

一个 Stateful Python Kernel，预加载输入帧和一组原语（primitives）
感知工具（Depth Anything 3、SAM 3）是普通 Python 可调用对象
输出（mask、深度图、相机几何、轨迹）是普通 Python 变量
六个公共入口：InputImages、Metadata、tools、show()、vlm、ReturnAnswer()

Agent 不是按预定义 JSON Schema 调用工具，而是写一个 Python cell 进 kernel，把工具结果当 NumPy 数组自由组合，根据中间结果决定下一步。

二、深度剖析

SpatialClaw 的胜负来自一个反直觉的实验设计。

同一个 Gemma4-31B 骨干网络、同一套 prompt、同一组感知工具，只换"动作接口"：

动作接口	20 项基准平均准确率	Δ vs 无工具
无工具基线	53.4%	—
Single-pass code（一次性写完整程序）	55.2%	+1.8
Structured tool-call（JSON Schema 工具调用）	56.7%	+3.3
SpatialClaw（代码即动作）	59.9%	+6.5

相对同期空间 Agent：

方法	动作接口	平均	Δ vs SpatialClaw
VADAR	Single-pass	40.5	−19.4
pySpatial	Single-pass	47.8	−12.1
SpaceTools-Toolshed	Structured tool-call	48.7	−11.2
SpatialClaw	Code as action	59.9	最佳

差距怎么来的？LLM-as-judge 归因分析：52.2% 的胜出来自代码组合，19.5% 来自控制流，28.3% 是接口中性的。

一个具体例子（论文里的 case）：

问：暖气片和门之间的最近距离？

Single-pass code：一次性写程序算质心距离。质心用中位数，错。

Structured tool-call：工具 schema 里没有"最近点"操作，答不出。

SpatialClaw：先用质心距离发现不对，再切到 scipy.spatial.KDTree 找最近点。0.9439 m，标答 0.9 m。

关键能力：根据中间观察结果，决定下一步调什么工具、写什么代码。

最大的提升发生在动态任务：

DSI-Bench：+17.6 分
MindCube：+15.3 分

这两类任务需要在多帧和多视角间链式几何计算。Single-pass 和 JSON tool-call 都跑不动这种"先看结果、再决定下一步"的链路。

支撑网络：6 个骨干，Qwen3.5/3.6 和 Gemma4 系列，规模 26B 到 397B。同一套 prompt 和工具集全部跑通，无 benchmark 专属调优。

五阶段循环：planning → code generation → code execution → feedback assembly → answer submission。AST 静态检查拒绝不安全代码。30 步上限。

实现栈：LangGraph 工作流 + 持久 Jupyter kernel + vLLM 服务骨干 + FastAPI GPU 服务跑感知。

潜在应用：

机器人和具身智能：测量物体间度量距离，再决定操作
多视角检测：从多个相机角度恢复物体朝向
视频和 4D 分析：跟踪物体或相机运动
室内场景问答："门相对于水槽在哪里？"

三、值得关注的原因

范式转变：代码即动作接口 vs 工具调用 JSON Schema，是 Agent 设计的重大转向。Anthropic 的 Computer Use、Claude Code、Manus、Devin——这些 Agent 范式的核心都是"代码是动作"。
免训练的工程价值：同一套 prompt/工具集跨 6 个骨干、20 个基准工作，团队无需为每个 VLM 重训一套 Agent。
VLA 机器人的上游：机器人执行物理操作前需要"先看清几何关系"——SpatialClaw 给出了一条免训练的工程路径。
感知是天花的提醒：动作接口的杠杆已经拉满（+6.5），下一步要的是更好的感知模型（Depth Anything 3、SAM 3）。

四、风险与待观察

许可证非商业：限制商业化落地。如果开源社区要求 NVIDIA 改协议才会有大用。
感知是天花板：动作接口改进有限，感知质量仍是大头。换更弱的骨干网络，准确率可能塌方。
30 步上限：复杂多步推理任务可能撞顶。需要长链路推理的具身任务（如"打开抽屉拿杯子"）还需扩展。
代码组合 52% vs JSON 28%：意味着 JSON tool-call 仍有 48% 场景占优，不是被全面取代。
五阶段循环 + Jupyter kernel：对运行环境有要求，部署成本高于纯 JSON tool-call 方案。

讨论回复

加载中...

正在加载回复...

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力