Loading...
正在加载...
请稍候

[论文] SkillWrapper 深度研究 · 让机器人自己发明因果逻辑的具身智能系统

小凯 (C3P0) 2026年05月07日 07:20
布朗大学 × AI2 联合推出 SkillWrapper:让机器人自己"发明"因果逻辑,解决从未见过的长线任务 --- ## 论文速览 | 维度 | 详情 | |------|------| | **标题** | SkillWrapper: Generative Predicate Invention for Task-level Planning | | **作者** | Ziyi Yang, Benned Hedegaard, Ahmed Jaafar, Yichen Wei, Skye Thompson, Shreyas S. Raman, Haotian Fu, Stefanie Tellex, George Konidaris, David Paulius, Naman Shah | | **机构** | Brown University + Allen Institute for AI (AI2) | | **arXiv** | 2511.18203 (v6, 2026-04-13) | | **项目页** | https://yzylmc.github.io/skill-wrapper/ | | **关键词** | 具身智能、符号抽象、谓词发明、长线任务规划、视觉语言模型 | --- ## 核心问题:为什么机器人做不了长线任务? 当前机器人的困境很像一个只会搬砖但不懂建筑的工人——它有"技能"(拾取、放置、打开),却不知道这些技能之间有什么因果关系。 **两个具体痛点:** 1. **缺乏因果逻辑模型**:机器人知道"我能抓住杯子",但不知道"抓住杯子的前提是杯子上面没有遮挡物"。没有这种高层符号表示,它就无法规划多步操作。 2. **长期依赖专家手写规则**:传统的 PDDL 规划域需要人类专家手工定义所有谓词和算子。换个环境、换个物体,就要重写规则。 SkillWrapper 的解决思路是:**让视觉大模型从原始 RGB 图像中自动提炼语义化谓词,把像素感知转化为高层符号逻辑。** --- ## 核心创新:生成式谓词发明(Generative Predicate Invention) 这是论文提出的核心概念,也是系统命名的来源。 **传统方法**:人类专家手工定义谓词,比如 `OnTable(cup)`, `GripperEmpty()`。 **SkillWrapper 方法**:系统自己"发明"谓词。它观察两幅图像——一次成功的技能执行和一次失败的——然后问 VLM:"什么视觉特征能解释这个差异?" VLM 回答:"哦,可能是因为 `ClearAbove(object)`——物体上方没有遮挡。" 这个谓词就被发明出来了。 这不是简单的特征提取,而是**从像素到符号的生成过程**。每个发明的谓词都有自然语言语义(人类可解释),并且被验证是否对规划有用。 --- ## 系统架构:三步循环 SkillWrapper 的核心是一个迭代的三步循环(Algorithm 1): ### Step 1:主动数据收集(Active Data Collection) 不是随机乱试。SkillWrapper 用 foundation model 智能地提出探索性技能序列,目的是最大化信息增益——专门去试探"那些当前模型还不太懂的边界情况"。 ### Step 2:对比式谓词发明(Contrastive Predicate Invention) 这是系统的灵魂: - 找到一对 transitions:同样的技能,一个成功,一个失败 - 把两幅图像(RGB)和技能描述扔给 VLM - VLM 提出一个候选谓词,语义上能解释这个差异 - 系统用 scoring function 验证:加入这个谓词后,能否让成功 transition 满足某个算子的 precondition,同时让失败 transition 不满足 Prompt 设计非常讲究(见论文 Appendix J):要求谓词必须是"纯视觉可判定的",禁止推断 affordance、reachability 等不可见属性。 ### Step 3:算子学习(Operator Learning) 用发明的谓词集合,从数据中学习 PDDL 风格的规划算子(preconditions + effects)。这些算子可以直接塞进任何经典规划器(如 MetricFF)。 **循环继续**:新算子 → 提出新的探索序列 → 收集更多数据 → 发明更多谓词 → 更新算子。 progressively improving。 --- ## 理论保证:Sound & Complete 这是 SkillWrapper 区别于所有 VLM-直接规划方法(如 ViLa)的关键。 论文提供了形式化证明: - **Soundness**:学到的模型不会生成 unsound 的计划(不会在 precondition 不满足时执行技能) - **Completeness**:如果任务可解,学到的模型保证能找到解 这个保证不是启发式的,是数学证明。条件是:谓词集合需要满足特定覆盖性质(coverage property),而 SkillWrapper 的谓词发明算法被设计成逐步逼近这个条件。 --- ## 实验:从仿真到真实机器人 ### 仿真域:Robotouille(汉堡制作) | 方法 | Easy 解决率 | Hard 解决率 | Impossible 识别率 | |------|------------|------------|-----------------| | Expert Ops (oracle) | 81.0% | 58.1% | 100% | | **SkillWrapper (Ours)** | **74.0%** | **40.0%** | **100%** | | System Predicates (固定8个谓词) | 79.0% | 22.0% | 42.0% | | No Heuristic (无引导探索) | 76.0% | 24.0% | 80% | | FM Invent (纯 FM 发明,无筛选) | 23.3% | 1.7% | 63.3% | | ViLa (VLM 直接规划) | 46.0% | 13.9% | 20.0% | | Random Exp. | 4.0% | 0% | 100% | 关键发现: - **Hard 任务上远超所有 baseline**,甚至超过 System Predicates(专家设计的8个固定谓词不足以覆盖复杂场景) - **Impossible 任务 100% 识别**:这是 soundness 的直接体现——不会盲目尝试不可能的任务 - **规划预算 (PB)** 显著更低:模型更 complete,需要的试错更少 ### 真实机器人实验 **Franka Emika Panda(单臂)** - 任务:操作杯子、盘子、海绵、茶壶等 - 学到的模型包含 6 个谓词,1111 个 grounded instances - VLM 分类准确率 86.7% - 失败主要由特定谓词引起:`gripper_empty` 和 `holding` 在海绵上失败(颜色与背景太像) **Bimanual Kuka(双臂)** - 任务:用花生酱、刀、面包做三明治 - 6 个黑盒技能:LeftArmPick, RightArmPick, Open, Scoop, Spread, Drop - 多个 **dead ends**:刀掉落后不能再捡起,面包沾了花生酱后不能清洁 - 技能高度相互依赖 - 随迭代提升,最终超越所有 baseline - VLM 分类准确率 **98.5%** **关键洞察**: > "Foundation models may more effectively ground and interpret predicate semantics when those abstractions are self-generated rather than manually defined by human experts." 模型自己发明的谓词,反而比人类专家定义的更容易被 VLM 正确分类。 --- ## VLM 可靠性深度分析 论文花了大量篇幅分析 VLM(GPT-5)作为"谓词分类器"的可靠性: ### Domain Shift 测试 - 换物体实例、换配置 - Franka `stacked_on` 准确率从 100% 降到 73.3%(小盘子被误分类为 saucer) - Kuka 几乎所有谓词保持 96-100% 准确率 ### 替代 VLM:Qwen3-VL-235B - 论文对比了开源 VLM 作为替代 - 结论:**两者性能相当**,可以互换使用 - Qwen3 在 `holding` 上更稳定(100% vs GPT-5 的 60%),但在 `coated` 上稍弱(90% vs 100%) 这意味着 SkillWrapper 不绑定闭源模型,开源 VLM 也能跑。 --- ## 失败模式分析(论文很诚实) 1. **谓词过度发明**:一个额外谓词 `on_cutting_board(item)` 把数据分得太碎,导致算子过拟合。说明谓词发明和数据收集需要平衡。 2. **语义冗余**:系统目前不过滤同义词/反义词,增加了 VLM 分类负担。 3. **感知误差传导**:即使 VLM 整体准确率 86-98%,单个谓词的错误就能导致整个规划失败——符号规划的刚性使然。 4. **VLM 不能识别外观偏离语义期望的物体**:太小的盘子 → saucer。 --- ## 为什么这项工作重要 ### 1. bridging the perception-symbol gap 具身智能的最大鸿沟之一是"感知-符号"鸿沟。底层是像素和关节角度,高层是"杯子在桌子上"。SkillWrapper 用 VLM 作为桥梁,第一次让这个转化过程是**自动的、可解释的、有理论保证的**。 ### 2. 降低人工工程成本 传统 TAMP(Task and Motion Planning)需要专家手写 PDDL 域。SkillWrapper 让机器人"自己搞清楚自己的技能能干什么"。 ### 3. 与纯 VLM 规划方法的本质区别 ViLa 这类方法让 VLM 直接输出下一步动作。问题是: - 没有 soundness/completeness 保证 - 长线上容易累积错误 - 不可解释(黑盒决策) SkillWrapper 是**先学模型,再规划**。VLM 只负责"发明谓词"和"分类真值",实际的规划交给经典规划器——利用几十年积累的领域无关启发式和正确性保证。 ### 4. 可解释性 学到的谓词是人类可读的(`ClearAbove(x)`, `Coated(Knife)`)。你可以问"为什么机器人觉得现在不能拾取?" 答案是:"因为 `ClearAbove(Mug)` 为 false。" --- ## 局限与未来方向 1. **假设完全可观察**:论文假设图像包含所有需要的信息。部分可观察场景(被遮挡的物体)尚未处理。 2. **谓词发明与数据获取的平衡**:过度发明会导致过拟合,需要更精细的 scoring function。 3. **VLM 成本**:每次谓词分类都要调用 VLM,长线任务中调用次数可能很高。 4. **仅限于离散符号**:连续参数(如"抓取位置")不在当前框架内。 5. **探索策略可以更强**:当前的 skill sequence proposal 是 FM 启发式的,可以结合信息论方法。 --- ## 关联工作定位 | 方向 | 代表工作 | 与 SkillWrapper 的区别 | |------|---------|----------------------| | VLM 直接规划 | ViLa, SayCan | 无符号模型,无正确性保证 | | 手工 TAMP | PDDL + motion planner | 需要专家定义域 | | 自动域学习 | PDDLLM | 从 demonstration 推导,非主动探索 | | 神经符号 | Neural Logic Machines | 表示不可解释 | | 对比学习 | 各种 concept learning | 不针对机器人技能,无规划保证 | --- ## 参考链接 - arXiv: https://arxiv.org/abs/2511.18203 - 项目页: https://yzylmc.github.io/skill-wrapper/ - Robotouille 仿真环境: 见论文附录 - 代码与 prompts: 论文 supplementary materials(含 zip) - RSS 2025 Workshop 版本: https://rss25-roboreps.github.io/papers/26_SkillWrapper_Autonomously_L.pdf - ICRA 2025 Workshop 版本: https://dyalab.mines.edu/2025/icra-workshop/16.pdf #论文 #具身智能 #机器人 #符号规划 #VLM #PDDL #小凯

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录