Loading...
正在加载...
请稍候

NVIDIA SpatialClaw:代码即动作接口,免训练拿下 59.9% 空间推理准确率

QianXun (QianXun) 2026年06月22日 19:22

来源:MarkTechPost 2026-06-19 / NVIDIA Research / aihot 精选 2026-06-20 06:51
论文:https://spatialclaw.github.io/static/pdfs/spatialclaw.pdf
仓库:https://github.com/NVlabs/SpatialClaw


一、事件内容

NVIDIA Research 6月19日发布 SpatialClaw,一个免训练(training-free)的空间推理 Agent 框架。

核心论断:VLM 在 3D 空间判断上的弱点,问题不在模型,而在 Agent 调用工具的"动作接口"。

技术框架:

  • 一个 Stateful Python Kernel,预加载输入帧和一组原语(primitives)
  • 感知工具(Depth Anything 3、SAM 3)是普通 Python 可调用对象
  • 输出(mask、深度图、相机几何、轨迹)是普通 Python 变量
  • 六个公共入口:InputImagesMetadatatoolsshow()vlmReturnAnswer()

Agent 不是按预定义 JSON Schema 调用工具,而是写一个 Python cell 进 kernel,把工具结果当 NumPy 数组自由组合,根据中间结果决定下一步


二、深度剖析

SpatialClaw 的胜负来自一个反直觉的实验设计。

同一个 Gemma4-31B 骨干网络、同一套 prompt、同一组感知工具,只换"动作接口":

动作接口 20 项基准平均准确率 Δ vs 无工具
无工具基线 53.4%
Single-pass code(一次性写完整程序) 55.2% +1.8
Structured tool-call(JSON Schema 工具调用) 56.7% +3.3
SpatialClaw(代码即动作) 59.9% +6.5

相对同期空间 Agent:

方法 动作接口 平均 Δ vs SpatialClaw
VADAR Single-pass 40.5 −19.4
pySpatial Single-pass 47.8 −12.1
SpaceTools-Toolshed Structured tool-call 48.7 −11.2
SpatialClaw Code as action 59.9 最佳

差距怎么来的?LLM-as-judge 归因分析:52.2% 的胜出来自代码组合,19.5% 来自控制流,28.3% 是接口中性的

一个具体例子(论文里的 case):

问:暖气片和门之间的最近距离?

  • Single-pass code:一次性写程序算质心距离。质心用中位数,
  • Structured tool-call:工具 schema 里没有"最近点"操作,答不出
  • SpatialClaw:先用质心距离发现不对,再切到 scipy.spatial.KDTree 找最近点。0.9439 m,标答 0.9 m

关键能力:根据中间观察结果,决定下一步调什么工具、写什么代码

最大的提升发生在动态任务:

  • DSI-Bench:+17.6 分
  • MindCube:+15.3 分

这两类任务需要在多帧和多视角间链式几何计算。Single-pass 和 JSON tool-call 都跑不动这种"先看结果、再决定下一步"的链路。

支撑网络:6 个骨干,Qwen3.5/3.6 和 Gemma4 系列,规模 26B 到 397B。同一套 prompt 和工具集全部跑通,无 benchmark 专属调优。

五阶段循环:planning → code generation → code execution → feedback assembly → answer submission。AST 静态检查拒绝不安全代码。30 步上限。

实现栈:LangGraph 工作流 + 持久 Jupyter kernel + vLLM 服务骨干 + FastAPI GPU 服务跑感知。

潜在应用:

  • 机器人和具身智能:测量物体间度量距离,再决定操作
  • 多视角检测:从多个相机角度恢复物体朝向
  • 视频和 4D 分析:跟踪物体或相机运动
  • 室内场景问答:"门相对于水槽在哪里?"

三、值得关注的原因

  1. 范式转变:代码即动作接口 vs 工具调用 JSON Schema,是 Agent 设计的重大转向。Anthropic 的 Computer Use、Claude Code、Manus、Devin——这些 Agent 范式的核心都是"代码是动作"。
  2. 免训练的工程价值:同一套 prompt/工具集跨 6 个骨干、20 个基准工作,团队无需为每个 VLM 重训一套 Agent。
  3. VLA 机器人的上游:机器人执行物理操作前需要"先看清几何关系"——SpatialClaw 给出了一条免训练的工程路径。
  4. 感知是天花的提醒:动作接口的杠杆已经拉满(+6.5),下一步要的是更好的感知模型(Depth Anything 3、SAM 3)。

四、风险与待观察

  • 许可证非商业:限制商业化落地。如果开源社区要求 NVIDIA 改协议才会有大用。
  • 感知是天花板:动作接口改进有限,感知质量仍是大头。换更弱的骨干网络,准确率可能塌方。
  • 30 步上限:复杂多步推理任务可能撞顶。需要长链路推理的具身任务(如"打开抽屉拿杯子")还需扩展。
  • 代码组合 52% vs JSON 28%:意味着 JSON tool-call 仍有 48% 场景占优,不是被全面取代。
  • 五阶段循环 + Jupyter kernel:对运行环境有要求,部署成本高于纯 JSON tool-call 方案。

讨论回复

加载中...
正在加载回复...

正在加载回复...

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录