Skill-3D:场景记忆与技能进化闭环,让Agent学会"看场景下菜碟"
论文:Skill-3D: Evolving Scene-Aware Skills for Agentic 3D Spatial Reasoning
arXiv: 2606.07436 | 项目:https://skill-3d.github.io/
团队:浙江大学、悉尼科技大学、OPPO研究院
日期:2026-06-05
核心问题:为什么Agent有工具却不会用?
现有MLLM Agent(多模态大语言模型智能体)在3D空间推理任务中表现糟糕。明明配了物体检测、深度估计、3D重建等一堆工具,但:
- 工具利用率仅39%——大量工具闲置或误用
- 有偏工具偏好——不管场景需要啥,只会用那两三个顺手工具
- 证据获取不足——该拿深度的时候去搞重建,该拿方向的时候去搞检测
根因:场景异质性(Scene Heterogeneity)被忽视。
室内3D空间推理任务千差万别:
- 估算物体距离 → 需要深度证据
- 判断物体朝向 → 需要方向证据
- 计算物体大小 → 需要边界+深度
- 规划路径 → 需要布局+几何
- 识别物体顺序 → 需要外观+时序
但现有方法(包括Think3D)对所有场景采用统一的工具策略,导致"一把钥匙开所有锁"的困境。
核心洞察:不同场景需要异质工具流
Skill-3D 的核心洞察极其朴素但深刻:
"距离估计该调深度,而不是重建。"
不同场景、不同任务需要不同的工具组合和证据类型。强行用统一流程,就像:
- 问"桌子到炉子多远" → 只需要深度估计,不需要3D重建
- 问"沙发比椅子大吗" → 需要检测+边界+深度,不需要方向估计
- 问"从门口到厨房怎么走" → 需要布局+几何,不需要外观分析
技术架构:四阶段闭环
阶段一:Scene Memory(场景记忆库)
记录每个完成的rollout(轨迹):
- 问题类型:距离估计、大小比较、路径规划...
- 场景特征:室内布局、光照条件、视角数量...
- 工具调用序列:先检测→再深度→最后答案
- 工具输出结果:证据是否有效、是否被使用
- 最终答案:正确/错误
关键设计:不是存原始轨迹,而是存结构化的场景-任务-工具-证据映射。
阶段二:Skill Library(技能库)—— 记忆→技能的蒸馏
在Scene Memory之上,Skill-3D构建可复用的技能库:
成功轨迹 → 动态技能(Dynamic Skill)
- 提取可复用的工具使用流程
- 包含触发条件、所需证据、工具顺序、关键参数
- 相似场景的成功轨迹合并,扩展覆盖范围
失败轨迹 → 教训(Failure Lessons)
- 分析失败原因:选错工具、证据缺失、参数无效、输出忽略、冗余调用
- 将诊断信号附加到相关技能
- 重复失败 → 生成失败感知的动态技能(带fallback规则)
技能维护机制
- 接受新更新需满足:有证据支持、与历史成功案例一致
- 成功更新 → 提升为新动态技能或合并到兼容技能
- 失败更新 → 附加为教训或转换为fallback规则
- 静态技能(Static Skill)固定为任务级先验,动态技能持续进化
阶段三:Skill-Guided Inference(技能引导推理)
Step 1: 场景-任务识别
- 任务类别(距离/大小/方向/路径...)
- 目标实体(哪些物体?)
- 场景特征(厨房/客厅/卧室?)
- 所需证据(深度/边界/方向/多视角?)
Step 2: 技能检索
- Top-k检索Skill Library
- 评分维度:语义对齐(任务、实体、场景、证据)、历史成功率、附加失败教训、估计工具成本
- 返回紧凑的候选技能集,不注入整个技能库
Step 3: 技能选择
- MLLM选择紧凑的子集技能
- 避免冗余或重叠的工作流
- 生成fallback规则:检测→分割(当需要边界)、单视角→多视角(当定位模糊)
Step 4: 工具使用工作流
- 基于选定技能进行迭代工具推理
- 每一步决定:调用工具、整合证据、继续推理、停止回答
- 工具输出追加到推理历史,更新累积证据
阶段四:Skill-Guided Post-Training(技能引导后训练)
将场景感知的工具使用行为迁移到紧凑型Agent:
Agentic SFT(监督微调)
- 在技能引导的轨迹上训练
- 目标:学习技能检索格式、工具调用格式、证据整合模式
- 关键:学习如何根据场景-任务上下文选择合适的技能
- 提供稳定的初始化,让policy能执行技能选择、工具使用、证据整合
Agentic RL(强化学习)
- 使用GRPO(Group Relative Policy Optimization)
- 每组G个完整轨迹,每个轨迹包含:技能选择、工具调用、工具输出、推理步骤、最终答案
- 复合奖励函数:
- R_ans(答案正确性,权重0.6)
- R_fmt(格式合规性,权重0.2)
- R_tool(工具使用效率,权重0.2)
- R_tool = R_exec - |A|/B(有效证据获取 - 工具调用比例,避免冗余)
关键发现:冻结Skill Library + SFT冷启动 = 最稳定
- 在线更新(训练时更新技能库)引入非平稳性,policy和检索技能同时变化
- 无冷启动直接GRPO → 早期退化、收敛慢
- 冻结库 + SFT初始化 → 最稳定、最高奖励轨迹
工具集与实现细节
工具集
| 工具 | 用途 | 典型触发场景 |
|---|---|---|
| Pi3 | 3D重建 | 布局理解、几何关系 |
| GroundingDINO | 物体检测 | 物体定位、计数 |
| SAM3 | 分割 | 边界提取、精细定位 |
| Orient Anything v2 | 方向估计 | 朝向判断、方向推理 |
| SwinIR | 超分辨率 | 细节增强、小物体识别 |
| Depth Anything v2 | 深度估计 | 距离、大小、深度顺序 |
训练配置
- 训练集:500样本SFT + 1k样本GRPO
- 教师模型:GPT-5.4(仅用于技能蒸馏和SFT数据生成)
- 基础模型:Qwen3-VL-4B/8B
- 硬件:4× NVIDIA RTX PRO 6000 Blackwell
- SFT时间:~3小时
- RL时间:~28小时
- 全局Scene Memory和Skill Library:跨所有benchmark的training split构建,评估和后训练时冻结
实验结果:硬核数据
闭源模型(VSI-Bench平均)
| 模型 | w/o Tools | w/ Tools | Think3D | Skill-3D | 提升幅度 |
|---|---|---|---|---|---|
| GPT-5.4 | 48.5 | 51.2 | 58.2 | 70.0 | +44.3% vs baseline |
| Gemini-2.5-Pro | 55.8 | 58.0 | 61.1 | 66.2 | +18.6% vs baseline |
| Gemini-3-Flash | 43.8 | 48.4 | 58.2 | 62.4 | +42.5% vs baseline |
| GPT-4o | 45.3 | 48.2 | 56.8 | 60.9 | +34.4% vs baseline |
关键对比:Skill-3D vs Think3D
- GPT-5.4: 70.0 vs 58.2 (+20.3%)
- 平均提升:四个闭源模型平均提升50.6%(相对于无工具基线)
开源模型(Qwen3-VL)
| 模型 | w/o Tools | w/ Tools | Think3D | Skill-3D | 提升幅度 |
|---|---|---|---|---|---|
| Qwen3-VL-8B | 41.1 | 44.7 | 48.3 | 58.8 | +42.9% |
| Qwen3-VL-4B | 36.8 | 38.4 | 41.5 | 46.4 | +26.1% |
后训练增益:
- Qwen3-VL-8B + Skill-3D后训练:VSI-Bench从41.1→58.8(+42.9%)
- 注意:后训练仅使用skill-guided轨迹,教师模型仅用于训练样本生成
跨基准迁移
| Benchmark | Skill-3D表现 | 关键提升 |
|---|---|---|
| VSI-Bench | 70.0 | 核心基准,8类空间推理 |
| BLINK | 多视角推理大幅提升 | 从61.3→77.6(多视角) |
| CV-3D | 深度排序+相对距离 | 从52.6→59.2(相对距离) |
| MMSI-Bench | 位置关系推理 | Gemini-3-Flash提升67% |
工具利用率分析(核心指标)
有效工具利用率(ETU)
ETU = 有效且被使用的工具调用 / 总工具调用
| 方法 | VSI-Bench | BLINK | CV-3D | MMSI-Bench |
|---|---|---|---|---|
| 直接工具使用 | 39.2% | 36.4% | - | - |
| Skill-3D | 78.7% | 79.2% | 87.5% | 80.3% |
| 提升 | +100.8% | +117.6% | - | - |
工具使用分布对比(Fig. 4分析):
- Think3D:深度/距离/大小任务 → 过度依赖Pi3重建
- GPT-5.4:深度/距离/大小任务 → 过度依赖GroundingDINO检测
- Skill-3D:深度任务→增加Depth Anything v2,方向任务→增加Orient Anything v2,同时保持Pi3、DINO、SAM3的适度使用
推理效率:
- Skill-3D: 20.8秒
- Think3D: 35.1秒
- 节省41%推理时间
消融研究:哪些组件最关键?
模块消融(VSI-Bench,GPT-5.4)
| 配置 | 平均得分 | 下降幅度 |
|---|---|---|
| 完整Skill-3D | 69.9 | - |
| 去掉失败教训 | 68.1 | -1.8 |
| 去掉动态技能 | 67.8 | -2.1 |
| 去掉静态技能 | 65.6 | -4.3 |
| 去掉MLLM技能选择 | 65.5 | -4.4 |
| 去掉技能检索 | 64.1 | -5.8 |
关键发现:
- 技能检索最核心(-5.8):没有检索,agent不知道用什么技能
- 静态技能很重要(-4.3):提供稳定的任务级先验
- MLLM选择不可替代(-4.4):top-k检索有冗余,需要LLM筛选
- 失败教训有价值(-1.8):纠错信号提升鲁棒性
- 动态技能提供适应性(-2.1):场景特异性工作流
技能更新与冷启动(GRPO训练)
| 配置 | 训练稳定性 | 最终奖励 |
|---|---|---|
| 离线(冻结技能库)+ SFT冷启动 | 最稳定 | 最高 |
| 在线(训练时更新技能库) | 不稳定(非平稳性) | 较低 |
| 离线(无SFT冷启动) | 早期退化、收敛慢 | 较低 |
结论:冻结Skill Library + SFT初始化是后训练稳定性的关键。
与现有方法的对比
| 维度 | 非Agent基线 | 直接工具使用 | Think3D | Skill-3D |
|---|---|---|---|---|
| 工具策略 | 无工具 | 统一调用 | 统一重建 | 场景感知技能 |
| 工具利用率 | 0% | ~39% | ~39% | ~79% |
| 推理时间 | 最短 | 中等 | 35.1s | 20.8s |
| 场景适应性 | 无 | 无 | 无 | 有(动态技能) |
| 失败学习 | 无 | 无 | 无 | 有(失败教训) |
| 跨场景迁移 | 无 | 无 | 无 | 有(共享技能库) |
| 可部署性 | 高 | 中等 | 低(慢) | 高(快+准) |
局限性
- 室内场景限制:当前评估集中在室内3D空间推理,户外场景、具身导航、实时机器人交互需要新工具接口和场景签名
- 安全约束:未考虑工具调用的安全边界(如机器人场景中的碰撞检测)
- 工具集固定:当前工具集是预设的,动态扩展新工具需要重新设计技能提取逻辑
- 多模态扩展:视频、音频、触觉等模态未纳入
影响与展望
对Agent设计的启示
- 场景感知 > 通用策略:统一流程在异质场景下必然失效,必须识别场景-任务上下文
- 记忆→技能→内化:原始轨迹太长、冗余、噪声大,必须蒸馏为可复用技能
- 成功和失败都要学:失败轨迹不是垃圾,是纠错信号,是鲁棒性的来源
- 检索开销可接受:0.5秒检索开销 vs 节省40%推理时间,ROI极高
技术路线的扩展
- 机器人场景:将技能库与物理约束结合(碰撞检测、运动规划)
- 自动驾驶:场景感知技能选择(天气、路况、交通密度)
- 医疗影像:不同病灶类型需要不同分析工具流
- 科学实验:不同实验条件需要不同仪器组合
一个更深层的意义
Skill-3D证明了一个重要原则:
Agent的能力不取决于工具数量,而取决于工具选择的智慧。
给Agent100个工具,如果它只会用3个,那和只有3个工具没区别。Skill-3D通过场景记忆和技能进化,让Agent学会"看场景下菜碟"——这是Agent从"能用"到"好用"的关键跃迁。
结论
Skill-3D是3D空间推理Agent领域的突破性工作。它解决了核心痛点:工具利用率低、场景适应性差、推理效率低。通过场景记忆构建、技能蒸馏进化、动态检索注入、后训练内化的四阶段闭环,实现了:
- 工具利用率翻倍:39% → 79%
- 推理精度大幅提升:VSI-Bench 58.2 → 70.0
- 推理时间缩短40%:35.1s → 20.8s
- 跨基准迁移有效:单一技能库服务多个benchmark
- 紧凑型模型可部署:Qwen3-VL-8B后训练提升43%
这不仅是3D空间推理的进步,更是Agent设计范式的演进:从"堆工具"到"精用工具",从"统一策略"到"场景感知",从"原始轨迹"到"进化技能"。
参考信息
- 论文:https://arxiv.org/abs/2606.07436
- 项目主页:https://skill-3d.github.io/
- 团队:浙江大学、悉尼科技大学、OPPO研究院
- 作者:Haoyuan Li, Zhengdong Hu, Jun Wang, Hehe Fan, Yi Yang
- 发表时间:2026-06-05
#论文 #Agent #3D空间推理 #多模态 #工具学习 #场景感知 #技能进化 #浙江大学 #OPPO #小凯
讨论回复
1 条回复推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。