来源:MarkTechPost 2026-06-19 / NVIDIA Research / aihot 精选 2026-06-20 06:51
论文:https://spatialclaw.github.io/static/pdfs/spatialclaw.pdf
仓库:https://github.com/NVlabs/SpatialClaw
一、事件内容
NVIDIA Research 6月19日发布 SpatialClaw,一个免训练(training-free)的空间推理 Agent 框架。
核心论断:VLM 在 3D 空间判断上的弱点,问题不在模型,而在 Agent 调用工具的"动作接口"。
技术框架:
- 一个 Stateful Python Kernel,预加载输入帧和一组原语(primitives)
- 感知工具(Depth Anything 3、SAM 3)是普通 Python 可调用对象
- 输出(mask、深度图、相机几何、轨迹)是普通 Python 变量
- 六个公共入口:
InputImages、Metadata、tools、show()、vlm、ReturnAnswer()
Agent 不是按预定义 JSON Schema 调用工具,而是写一个 Python cell 进 kernel,把工具结果当 NumPy 数组自由组合,根据中间结果决定下一步。
二、深度剖析
SpatialClaw 的胜负来自一个反直觉的实验设计。
同一个 Gemma4-31B 骨干网络、同一套 prompt、同一组感知工具,只换"动作接口":
| 动作接口 | 20 项基准平均准确率 | Δ vs 无工具 |
|---|---|---|
| 无工具基线 | 53.4% | — |
| Single-pass code(一次性写完整程序) | 55.2% | +1.8 |
| Structured tool-call(JSON Schema 工具调用) | 56.7% | +3.3 |
| SpatialClaw(代码即动作) | 59.9% | +6.5 |
相对同期空间 Agent:
| 方法 | 动作接口 | 平均 | Δ vs SpatialClaw |
|---|---|---|---|
| VADAR | Single-pass | 40.5 | −19.4 |
| pySpatial | Single-pass | 47.8 | −12.1 |
| SpaceTools-Toolshed | Structured tool-call | 48.7 | −11.2 |
| SpatialClaw | Code as action | 59.9 | 最佳 |
差距怎么来的?LLM-as-judge 归因分析:52.2% 的胜出来自代码组合,19.5% 来自控制流,28.3% 是接口中性的。
一个具体例子(论文里的 case):
问:暖气片和门之间的最近距离?
- Single-pass code:一次性写程序算质心距离。质心用中位数,错。
- Structured tool-call:工具 schema 里没有"最近点"操作,答不出。
- SpatialClaw:先用质心距离发现不对,再切到
scipy.spatial.KDTree找最近点。0.9439 m,标答 0.9 m。
关键能力:根据中间观察结果,决定下一步调什么工具、写什么代码。
最大的提升发生在动态任务:
- DSI-Bench:+17.6 分
- MindCube:+15.3 分
这两类任务需要在多帧和多视角间链式几何计算。Single-pass 和 JSON tool-call 都跑不动这种"先看结果、再决定下一步"的链路。
支撑网络:6 个骨干,Qwen3.5/3.6 和 Gemma4 系列,规模 26B 到 397B。同一套 prompt 和工具集全部跑通,无 benchmark 专属调优。
五阶段循环:planning → code generation → code execution → feedback assembly → answer submission。AST 静态检查拒绝不安全代码。30 步上限。
实现栈:LangGraph 工作流 + 持久 Jupyter kernel + vLLM 服务骨干 + FastAPI GPU 服务跑感知。
潜在应用:
- 机器人和具身智能:测量物体间度量距离,再决定操作
- 多视角检测:从多个相机角度恢复物体朝向
- 视频和 4D 分析:跟踪物体或相机运动
- 室内场景问答:"门相对于水槽在哪里?"
三、值得关注的原因
- 范式转变:代码即动作接口 vs 工具调用 JSON Schema,是 Agent 设计的重大转向。Anthropic 的 Computer Use、Claude Code、Manus、Devin——这些 Agent 范式的核心都是"代码是动作"。
- 免训练的工程价值:同一套 prompt/工具集跨 6 个骨干、20 个基准工作,团队无需为每个 VLM 重训一套 Agent。
- VLA 机器人的上游:机器人执行物理操作前需要"先看清几何关系"——SpatialClaw 给出了一条免训练的工程路径。
- 感知是天花的提醒:动作接口的杠杆已经拉满(+6.5),下一步要的是更好的感知模型(Depth Anything 3、SAM 3)。
四、风险与待观察
- 许可证非商业:限制商业化落地。如果开源社区要求 NVIDIA 改协议才会有大用。
- 感知是天花板:动作接口改进有限,感知质量仍是大头。换更弱的骨干网络,准确率可能塌方。
- 30 步上限:复杂多步推理任务可能撞顶。需要长链路推理的具身任务(如"打开抽屉拿杯子")还需扩展。
- 代码组合 52% vs JSON 28%:意味着 JSON tool-call 仍有 48% 场景占优,不是被全面取代。
- 五阶段循环 + Jupyter kernel:对运行环境有要求,部署成本高于纯 JSON tool-call 方案。
讨论回复
加载中...正在加载回复...
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。