Skill-3D：场景记忆与技能进化闭环，让Agent学会"看场景下菜碟"

> 论文：Skill-3D: Evolving Scene-Aware Skills for Agentic 3D Spatial Reasoning > arXiv: 2606.07436 | 项目：https://skill-3d.github.io/ > 团队：浙江大学、悉尼科技大学、OPPO研究院 > 日期：2026-06-05

---

核心问题：为什么Agent有工具却不会用？

现有MLLM Agent（多模态大语言模型智能体）在3D空间推理任务中表现糟糕。明明配了物体检测、深度估计、3D重建等一堆工具，但：

工具利用率仅39%——大量工具闲置或误用
有偏工具偏好——不管场景需要啥，只会用那两三个顺手工具
证据获取不足——该拿深度的时候去搞重建，该拿方向的时候去搞检测

根因：场景异质性（Scene Heterogeneity）被忽视。

室内3D空间推理任务千差万别：

估算物体距离 → 需要深度证据
判断物体朝向 → 需要方向证据
计算物体大小 → 需要边界+深度
规划路径 → 需要布局+几何
识别物体顺序 → 需要外观+时序

但现有方法（包括Think3D）对所有场景采用统一的工具策略，导致"一把钥匙开所有锁"的困境。

---

核心洞察：不同场景需要异质工具流

Skill-3D 的核心洞察极其朴素但深刻：

> "距离估计该调深度，而不是重建。"

不同场景、不同任务需要不同的工具组合和证据类型。强行用统一流程，就像：

问"桌子到炉子多远" → 只需要深度估计，不需要3D重建
问"沙发比椅子大吗" → 需要检测+边界+深度，不需要方向估计
问"从门口到厨房怎么走" → 需要布局+几何，不需要外观分析

---

技术架构：四阶段闭环

阶段一：Scene Memory（场景记忆库）

记录每个完成的rollout（轨迹）：

问题类型：距离估计、大小比较、路径规划...
场景特征：室内布局、光照条件、视角数量...
工具调用序列：先检测→再深度→最后答案
工具输出结果：证据是否有效、是否被使用
最终答案：正确/错误

关键设计：不是存原始轨迹，而是存结构化的场景-任务-工具-证据映射。

阶段二：Skill Library（技能库）—— 记忆→技能的蒸馏

在Scene Memory之上，Skill-3D构建可复用的技能库：

成功轨迹 → 动态技能（Dynamic Skill）

提取可复用的工具使用流程
包含触发条件、所需证据、工具顺序、关键参数
相似场景的成功轨迹合并，扩展覆盖范围

失败轨迹 → 教训（Failure Lessons）

分析失败原因：选错工具、证据缺失、参数无效、输出忽略、冗余调用
将诊断信号附加到相关技能
重复失败 → 生成失败感知的动态技能（带fallback规则）

技能维护机制

接受新更新需满足：有证据支持、与历史成功案例一致
成功更新 → 提升为新动态技能或合并到兼容技能
失败更新 → 附加为教训或转换为fallback规则
静态技能（Static Skill）固定为任务级先验，动态技能持续进化

阶段三：Skill-Guided Inference（技能引导推理）

Step 1: 场景-任务识别

任务类别（距离/大小/方向/路径...）
目标实体（哪些物体？）
场景特征（厨房/客厅/卧室？）
所需证据（深度/边界/方向/多视角？）

Step 2: 技能检索

Top-k检索Skill Library
评分维度：语义对齐（任务、实体、场景、证据）、历史成功率、附加失败教训、估计工具成本
返回紧凑的候选技能集，不注入整个技能库

Step 3: 技能选择

MLLM选择紧凑的子集技能
避免冗余或重叠的工作流
生成fallback规则：检测→分割（当需要边界）、单视角→多视角（当定位模糊）

Step 4: 工具使用工作流

基于选定技能进行迭代工具推理
每一步决定：调用工具、整合证据、继续推理、停止回答
工具输出追加到推理历史，更新累积证据

阶段四：Skill-Guided Post-Training（技能引导后训练）

将场景感知的工具使用行为迁移到紧凑型Agent：

Agentic SFT（监督微调）

在技能引导的轨迹上训练
目标：学习技能检索格式、工具调用格式、证据整合模式
关键：学习如何根据场景-任务上下文选择合适的技能
提供稳定的初始化，让policy能执行技能选择、工具使用、证据整合

Agentic RL（强化学习）

使用GRPO（Group Relative Policy Optimization）
每组G个完整轨迹，每个轨迹包含：技能选择、工具调用、工具输出、推理步骤、最终答案
复合奖励函数：
R_ans（答案正确性，权重0.6）
R_fmt（格式合规性，权重0.2）
R_tool（工具使用效率，权重0.2）
R_tool = R_exec - |A|/B（有效证据获取 - 工具调用比例，避免冗余）

关键发现：冻结Skill Library + SFT冷启动 = 最稳定

在线更新（训练时更新技能库）引入非平稳性，policy和检索技能同时变化
无冷启动直接GRPO → 早期退化、收敛慢
冻结库 + SFT初始化 → 最稳定、最高奖励轨迹

---

工具集与实现细节

工具集

工具	用途	典型触发场景
Pi3	3D重建	布局理解、几何关系
GroundingDINO	物体检测	物体定位、计数
SAM3	分割	边界提取、精细定位
Orient Anything v2	方向估计	朝向判断、方向推理
SwinIR	超分辨率	细节增强、小物体识别
Depth Anything v2	深度估计	距离、大小、深度顺序

训练配置

训练集：500样本SFT + 1k样本GRPO
教师模型：GPT-5.4（仅用于技能蒸馏和SFT数据生成）
基础模型：Qwen3-VL-4B/8B
硬件：4× NVIDIA RTX PRO 6000 Blackwell
SFT时间：~3小时
RL时间：~28小时
全局Scene Memory和Skill Library：跨所有benchmark的training split构建，评估和后训练时冻结

---

实验结果：硬核数据

闭源模型（VSI-Bench平均）

模型	w/o Tools	w/ Tools	Think3D	Skill-3D	提升幅度
GPT-5.4	48.5	51.2	58.2	70.0	+44.3% vs baseline
Gemini-2.5-Pro	55.8	58.0	61.1	66.2	+18.6% vs baseline
Gemini-3-Flash	43.8	48.4	58.2	62.4	+42.5% vs baseline
GPT-4o	45.3	48.2	56.8	60.9	+34.4% vs baseline

关键对比：Skill-3D vs Think3D

GPT-5.4: 70.0 vs 58.2 (+20.3%)
平均提升：四个闭源模型平均提升50.6%（相对于无工具基线）

开源模型（Qwen3-VL）

模型	w/o Tools	w/ Tools	Think3D	Skill-3D	提升幅度
Qwen3-VL-8B	41.1	44.7	48.3	58.8	+42.9%
Qwen3-VL-4B	36.8	38.4	41.5	46.4	+26.1%

后训练增益：

Qwen3-VL-8B + Skill-3D后训练：VSI-Bench从41.1→58.8（+42.9%）
注意：后训练仅使用skill-guided轨迹，教师模型仅用于训练样本生成

跨基准迁移

Benchmark	Skill-3D表现	关键提升
VSI-Bench	70.0	核心基准，8类空间推理
BLINK	多视角推理大幅提升	从61.3→77.6（多视角）
CV-3D	深度排序+相对距离	从52.6→59.2（相对距离）
MMSI-Bench	位置关系推理	Gemini-3-Flash提升67%

工具利用率分析（核心指标）

有效工具利用率（ETU） > ETU = 有效且被使用的工具调用 / 总工具调用

方法	VSI-Bench	BLINK	CV-3D	MMSI-Bench
直接工具使用	39.2%	36.4%	-	-
Skill-3D	78.7%	79.2%	87.5%	80.3%
提升	+100.8%	+117.6%	-	-

工具使用分布对比（Fig. 4分析）：

Think3D：深度/距离/大小任务 → 过度依赖Pi3重建
GPT-5.4：深度/距离/大小任务 → 过度依赖GroundingDINO检测
Skill-3D：深度任务→增加Depth Anything v2，方向任务→增加Orient Anything v2，同时保持Pi3、DINO、SAM3的适度使用

推理效率：

Skill-3D: 20.8秒
Think3D: 35.1秒
节省41%推理时间

---

消融研究：哪些组件最关键？

模块消融（VSI-Bench，GPT-5.4）

配置	平均得分	下降幅度
完整Skill-3D	69.9	-
去掉失败教训	68.1	-1.8
去掉动态技能	67.8	-2.1
去掉静态技能	65.6	-4.3
去掉MLLM技能选择	65.5	-4.4
去掉技能检索	64.1	-5.8

关键发现： 1. 技能检索最核心（-5.8）：没有检索，agent不知道用什么技能 2. 静态技能很重要（-4.3）：提供稳定的任务级先验 3. MLLM选择不可替代（-4.4）：top-k检索有冗余，需要LLM筛选 4. 失败教训有价值（-1.8）：纠错信号提升鲁棒性 5. 动态技能提供适应性（-2.1）：场景特异性工作流

技能更新与冷启动（GRPO训练）

配置	训练稳定性	最终奖励
离线（冻结技能库）+ SFT冷启动	最稳定	最高
在线（训练时更新技能库）	不稳定（非平稳性）	较低
离线（无SFT冷启动）	早期退化、收敛慢	较低

结论：冻结Skill Library + SFT初始化是后训练稳定性的关键。

---

与现有方法的对比

维度	非Agent基线	直接工具使用	Think3D	Skill-3D
工具策略	无工具	统一调用	统一重建	场景感知技能
工具利用率	0%	~39%	~39%	~79%
推理时间	最短	中等	35.1s	20.8s
场景适应性	无	无	无	有（动态技能）
失败学习	无	无	无	有（失败教训）
跨场景迁移	无	无	无	有（共享技能库）
可部署性	高	中等	低（慢）	高（快+准）

---

局限性

1. 室内场景限制：当前评估集中在室内3D空间推理，户外场景、具身导航、实时机器人交互需要新工具接口和场景签名 2. 安全约束：未考虑工具调用的安全边界（如机器人场景中的碰撞检测） 3. 工具集固定：当前工具集是预设的，动态扩展新工具需要重新设计技能提取逻辑 4. 多模态扩展：视频、音频、触觉等模态未纳入

---

影响与展望

对Agent设计的启示

1. 场景感知 > 通用策略：统一流程在异质场景下必然失效，必须识别场景-任务上下文 2. 记忆→技能→内化：原始轨迹太长、冗余、噪声大，必须蒸馏为可复用技能 3. 成功和失败都要学：失败轨迹不是垃圾，是纠错信号，是鲁棒性的来源 4. 检索开销可接受：0.5秒检索开销 vs 节省40%推理时间，ROI极高

技术路线的扩展

机器人场景：将技能库与物理约束结合（碰撞检测、运动规划）
自动驾驶：场景感知技能选择（天气、路况、交通密度）
医疗影像：不同病灶类型需要不同分析工具流
科学实验：不同实验条件需要不同仪器组合

一个更深层的意义

Skill-3D证明了一个重要原则：

> Agent的能力不取决于工具数量，而取决于工具选择的智慧。

给Agent100个工具，如果它只会用3个，那和只有3个工具没区别。Skill-3D通过场景记忆和技能进化，让Agent学会"看场景下菜碟"——这是Agent从"能用"到"好用"的关键跃迁。

---

结论

Skill-3D是3D空间推理Agent领域的突破性工作。它解决了核心痛点：工具利用率低、场景适应性差、推理效率低。通过场景记忆构建、技能蒸馏进化、动态检索注入、后训练内化的四阶段闭环，实现了：

工具利用率翻倍：39% → 79%
推理精度大幅提升：VSI-Bench 58.2 → 70.0
推理时间缩短40%：35.1s → 20.8s
跨基准迁移有效：单一技能库服务多个benchmark
紧凑型模型可部署：Qwen3-VL-8B后训练提升43%

这不仅是3D空间推理的进步，更是Agent设计范式的演进：从"堆工具"到"精用工具"，从"统一策略"到"场景感知"，从"原始轨迹"到"进化技能"。

---

参考信息

论文：https://arxiv.org/abs/2606.07436
项目主页：https://skill-3d.github.io/
团队：浙江大学、悉尼科技大学、OPPO研究院
作者：Haoyuan Li, Zhengdong Hu, Jun Wang, Hehe Fan, Yi Yang
发表时间：2026-06-05

#论文 #Agent #3D空间推理 #多模态 #工具学习 #场景感知 #技能进化 #浙江大学 #OPPO #小凯

Skill-3D：场景记忆与技能进化闭环，让Agent学会"看场景下菜碟"

Skill-3D：场景记忆与技能进化闭环，让Agent学会"看场景下菜碟"

核心问题：为什么Agent有工具却不会用？

核心洞察：不同场景需要异质工具流

技术架构：四阶段闭环

阶段一：Scene Memory（场景记忆库）

阶段二：Skill Library（技能库）—— 记忆→技能的蒸馏

阶段三：Skill-Guided Inference（技能引导推理）

阶段四：Skill-Guided Post-Training（技能引导后训练）

工具集与实现细节

工具集

训练配置

实验结果：硬核数据

闭源模型（VSI-Bench平均）

开源模型（Qwen3-VL）

跨基准迁移

工具利用率分析（核心指标）

消融研究：哪些组件最关键？

模块消融（VSI-Bench，GPT-5.4）

技能更新与冷启动（GRPO训练）

与现有方法的对比

局限性

影响与展望

对Agent设计的启示

技术路线的扩展

一个更深层的意义

结论

参考信息

🌟 智谱 GLM-5 已上线