[论文] SkillWrapper 深度研究 · 让机器人自己发明因果逻辑的具身智能系统

布朗大学 × AI2 联合推出 SkillWrapper：让机器人自己"发明"因果逻辑，解决从未见过的长线任务 --- ## 论文速览 | 维度 | 详情 | |------|------| | 标题 | SkillWrapper: Generative Predicate Invention for Task-level Planning | | 作者 | Ziyi Yang, Benned Hedegaard, Ahmed Jaafar, Yichen Wei, Skye Thompson, Shreyas S. Raman, Haotian Fu, Stefanie Tellex, George Konidaris, David Paulius, Naman Shah | | 机构 | Brown University + Allen Institute for AI (AI2) | | arXiv | 2511.18203 (v6, 2026-04-13) | | 项目页 | https://yzylmc.github.io/skill-wrapper/ | | 关键词 | 具身智能、符号抽象、谓词发明、长线任务规划、视觉语言模型 | --- ## 核心问题：为什么机器人做不了长线任务？当前机器人的困境很像一个只会搬砖但不懂建筑的工人——它有"技能"（拾取、放置、打开），却不知道这些技能之间有什么因果关系。 两个具体痛点： 1. 缺乏因果逻辑模型：机器人知道"我能抓住杯子"，但不知道"抓住杯子的前提是杯子上面没有遮挡物"。没有这种高层符号表示，它就无法规划多步操作。 2. 长期依赖专家手写规则：传统的 PDDL 规划域需要人类专家手工定义所有谓词和算子。换个环境、换个物体，就要重写规则。 SkillWrapper 的解决思路是：让视觉大模型从原始 RGB 图像中自动提炼语义化谓词，把像素感知转化为高层符号逻辑。 --- ## 核心创新：生成式谓词发明（Generative Predicate Invention）这是论文提出的核心概念，也是系统命名的来源。 传统方法：人类专家手工定义谓词，比如 OnTable(cup), GripperEmpty()。 SkillWrapper 方法：系统自己"发明"谓词。它观察两幅图像——一次成功的技能执行和一次失败的——然后问 VLM："什么视觉特征能解释这个差异？" VLM 回答："哦，可能是因为 ClearAbove(object)——物体上方没有遮挡。" 这个谓词就被发明出来了。这不是简单的特征提取，而是从像素到符号的生成过程。每个发明的谓词都有自然语言语义（人类可解释），并且被验证是否对规划有用。 --- ## 系统架构：三步循环 SkillWrapper 的核心是一个迭代的三步循环（Algorithm 1）： ### Step 1：主动数据收集（Active Data Collection）不是随机乱试。SkillWrapper 用 foundation model 智能地提出探索性技能序列，目的是最大化信息增益——专门去试探"那些当前模型还不太懂的边界情况"。 ### Step 2：对比式谓词发明（Contrastive Predicate Invention）这是系统的灵魂： - 找到一对 transitions：同样的技能，一个成功，一个失败 - 把两幅图像（RGB）和技能描述扔给 VLM - VLM 提出一个候选谓词，语义上能解释这个差异 - 系统用 scoring function 验证：加入这个谓词后，能否让成功 transition 满足某个算子的 precondition，同时让失败 transition 不满足 Prompt 设计非常讲究（见论文 Appendix J）：要求谓词必须是"纯视觉可判定的"，禁止推断 affordance、reachability 等不可见属性。 ### Step 3：算子学习（Operator Learning）用发明的谓词集合，从数据中学习 PDDL 风格的规划算子（preconditions + effects）。这些算子可以直接塞进任何经典规划器（如 MetricFF）。 循环继续：新算子 → 提出新的探索序列 → 收集更多数据 → 发明更多谓词 → 更新算子。 progressively improving。 --- ## 理论保证：Sound & Complete 这是 SkillWrapper 区别于所有 VLM-直接规划方法（如 ViLa）的关键。论文提供了形式化证明： - Soundness：学到的模型不会生成 unsound 的计划（不会在 precondition 不满足时执行技能） - Completeness：如果任务可解，学到的模型保证能找到解这个保证不是启发式的，是数学证明。条件是：谓词集合需要满足特定覆盖性质（coverage property），而 SkillWrapper 的谓词发明算法被设计成逐步逼近这个条件。 --- ## 实验：从仿真到真实机器人 ### 仿真域：Robotouille（汉堡制作） | 方法 | Easy 解决率 | Hard 解决率 | Impossible 识别率 | |------|------------|------------|-----------------| | Expert Ops (oracle) | 81.0% | 58.1% | 100% | | SkillWrapper (Ours) | 74.0% | 40.0% | 100% | | System Predicates (固定8个谓词) | 79.0% | 22.0% | 42.0% | | No Heuristic (无引导探索) | 76.0% | 24.0% | 80% | | FM Invent (纯 FM 发明，无筛选) | 23.3% | 1.7% | 63.3% | | ViLa (VLM 直接规划) | 46.0% | 13.9% | 20.0% | | Random Exp. | 4.0% | 0% | 100% | 关键发现： - Hard 任务上远超所有 baseline，甚至超过 System Predicates（专家设计的8个固定谓词不足以覆盖复杂场景） - Impossible 任务 100% 识别：这是 soundness 的直接体现——不会盲目尝试不可能的任务 - 规划预算 (PB) 显著更低：模型更 complete，需要的试错更少 ### 真实机器人实验 Franka Emika Panda（单臂） - 任务：操作杯子、盘子、海绵、茶壶等 - 学到的模型包含 6 个谓词，1111 个 grounded instances - VLM 分类准确率 86.7% - 失败主要由特定谓词引起：gripper_empty 和 holding 在海绵上失败（颜色与背景太像） Bimanual Kuka（双臂） - 任务：用花生酱、刀、面包做三明治 - 6 个黑盒技能：LeftArmPick, RightArmPick, Open, Scoop, Spread, Drop - 多个 dead ends：刀掉落后不能再捡起，面包沾了花生酱后不能清洁 - 技能高度相互依赖 - 随迭代提升，最终超越所有 baseline - VLM 分类准确率 98.5% 关键洞察： > "Foundation models may more effectively ground and interpret predicate semantics when those abstractions are self-generated rather than manually defined by human experts." 模型自己发明的谓词，反而比人类专家定义的更容易被 VLM 正确分类。 --- ## VLM 可靠性深度分析论文花了大量篇幅分析 VLM（GPT-5）作为"谓词分类器"的可靠性： ### Domain Shift 测试 - 换物体实例、换配置 - Franka stacked_on 准确率从 100% 降到 73.3%（小盘子被误分类为 saucer） - Kuka 几乎所有谓词保持 96-100% 准确率 ### 替代 VLM：Qwen3-VL-235B - 论文对比了开源 VLM 作为替代 - 结论：两者性能相当，可以互换使用 - Qwen3 在 holding 上更稳定（100% vs GPT-5 的 60%），但在 coated 上稍弱（90% vs 100%）这意味着 SkillWrapper 不绑定闭源模型，开源 VLM 也能跑。 --- ## 失败模式分析（论文很诚实） 1. 谓词过度发明：一个额外谓词 on_cutting_board(item) 把数据分得太碎，导致算子过拟合。说明谓词发明和数据收集需要平衡。 2. 语义冗余：系统目前不过滤同义词/反义词，增加了 VLM 分类负担。 3. 感知误差传导：即使 VLM 整体准确率 86-98%，单个谓词的错误就能导致整个规划失败——符号规划的刚性使然。 4. VLM 不能识别外观偏离语义期望的物体：太小的盘子 → saucer。 --- ## 为什么这项工作重要 ### 1. bridging the perception-symbol gap 具身智能的最大鸿沟之一是"感知-符号"鸿沟。底层是像素和关节角度，高层是"杯子在桌子上"。SkillWrapper 用 VLM 作为桥梁，第一次让这个转化过程是自动的、可解释的、有理论保证的。 ### 2. 降低人工工程成本传统 TAMP（Task and Motion Planning）需要专家手写 PDDL 域。SkillWrapper 让机器人"自己搞清楚自己的技能能干什么"。 ### 3. 与纯 VLM 规划方法的本质区别 ViLa 这类方法让 VLM 直接输出下一步动作。问题是： - 没有 soundness/completeness 保证 - 长线上容易累积错误 - 不可解释（黑盒决策） SkillWrapper 是先学模型，再规划。VLM 只负责"发明谓词"和"分类真值"，实际的规划交给经典规划器——利用几十年积累的领域无关启发式和正确性保证。 ### 4. 可解释性学到的谓词是人类可读的（ClearAbove(x), Coated(Knife)）。你可以问"为什么机器人觉得现在不能拾取？" 答案是："因为 ClearAbove(Mug) 为 false。" --- ## 局限与未来方向 1. 假设完全可观察：论文假设图像包含所有需要的信息。部分可观察场景（被遮挡的物体）尚未处理。 2. 谓词发明与数据获取的平衡：过度发明会导致过拟合，需要更精细的 scoring function。 3. VLM 成本：每次谓词分类都要调用 VLM，长线任务中调用次数可能很高。 4. 仅限于离散符号：连续参数（如"抓取位置"）不在当前框架内。 5. 探索策略可以更强：当前的 skill sequence proposal 是 FM 启发式的，可以结合信息论方法。 --- ## 关联工作定位 | 方向 | 代表工作 | 与 SkillWrapper 的区别 | |------|---------|----------------------| | VLM 直接规划 | ViLa, SayCan | 无符号模型，无正确性保证 | | 手工 TAMP | PDDL + motion planner | 需要专家定义域 | | 自动域学习 | PDDLLM | 从 demonstration 推导，非主动探索 | | 神经符号 | Neural Logic Machines | 表示不可解释 | | 对比学习 | 各种 concept learning | 不针对机器人技能，无规划保证 | --- ## 参考链接 - arXiv: https://arxiv.org/abs/2511.18203 - 项目页: https://yzylmc.github.io/skill-wrapper/ - Robotouille 仿真环境: 见论文附录 - 代码与 prompts: 论文 supplementary materials（含 zip） - RSS 2025 Workshop 版本: https://rss25-roboreps.github.io/papers/26_SkillWrapper_Autonomously_L.pdf - ICRA 2025 Workshop 版本: https://dyalab.mines.edu/2025/icra-workshop/16.pdf #论文 #具身智能 #机器人 #符号规划 #VLM #PDDL #小凯

[论文] SkillWrapper 深度研究 · 让机器人自己发明因果逻辑的具身智能系统

🌟 智谱 GLM-5 已上线