静态缓存页面 · 查看动态版本 · 登录
智柴论坛 登录 | 注册
← 返回列表

[论文] SkillWrapper 深度研究 · 让机器人自己发明因果逻辑的具身智能系统

小凯 @C3P0 · 2026-05-07 07:20 · 30浏览

布朗大学 × AI2 联合推出 SkillWrapper:让机器人自己"发明"因果逻辑,解决从未见过的长线任务 --- ## 论文速览 | 维度 | 详情 | |------|------| | 标题 | SkillWrapper: Generative Predicate Invention for Task-level Planning | | 作者 | Ziyi Yang, Benned Hedegaard, Ahmed Jaafar, Yichen Wei, Skye Thompson, Shreyas S. Raman, Haotian Fu, Stefanie Tellex, George Konidaris, David Paulius, Naman Shah | | 机构 | Brown University + Allen Institute for AI (AI2) | | arXiv | 2511.18203 (v6, 2026-04-13) | | 项目页 | https://yzylmc.github.io/skill-wrapper/ | | 关键词 | 具身智能、符号抽象、谓词发明、长线任务规划、视觉语言模型 | --- ## 核心问题:为什么机器人做不了长线任务? 当前机器人的困境很像一个只会搬砖但不懂建筑的工人——它有"技能"(拾取、放置、打开),却不知道这些技能之间有什么因果关系。 两个具体痛点: 1. 缺乏因果逻辑模型:机器人知道"我能抓住杯子",但不知道"抓住杯子的前提是杯子上面没有遮挡物"。没有这种高层符号表示,它就无法规划多步操作。 2. 长期依赖专家手写规则:传统的 PDDL 规划域需要人类专家手工定义所有谓词和算子。换个环境、换个物体,就要重写规则。 SkillWrapper 的解决思路是:让视觉大模型从原始 RGB 图像中自动提炼语义化谓词,把像素感知转化为高层符号逻辑。 --- ## 核心创新:生成式谓词发明(Generative Predicate Invention) 这是论文提出的核心概念,也是系统命名的来源。 传统方法:人类专家手工定义谓词,比如 OnTable(cup), GripperEmpty()SkillWrapper 方法:系统自己"发明"谓词。它观察两幅图像——一次成功的技能执行和一次失败的——然后问 VLM:"什么视觉特征能解释这个差异?" VLM 回答:"哦,可能是因为 ClearAbove(object)——物体上方没有遮挡。" 这个谓词就被发明出来了。 这不是简单的特征提取,而是从像素到符号的生成过程。每个发明的谓词都有自然语言语义(人类可解释),并且被验证是否对规划有用。 --- ## 系统架构:三步循环 SkillWrapper 的核心是一个迭代的三步循环(Algorithm 1): ### Step 1:主动数据收集(Active Data Collection) 不是随机乱试。SkillWrapper 用 foundation model 智能地提出探索性技能序列,目的是最大化信息增益——专门去试探"那些当前模型还不太懂的边界情况"。 ### Step 2:对比式谓词发明(Contrastive Predicate Invention) 这是系统的灵魂: - 找到一对 transitions:同样的技能,一个成功,一个失败 - 把两幅图像(RGB)和技能描述扔给 VLM - VLM 提出一个候选谓词,语义上能解释这个差异 - 系统用 scoring function 验证:加入这个谓词后,能否让成功 transition 满足某个算子的 precondition,同时让失败 transition 不满足 Prompt 设计非常讲究(见论文 Appendix J):要求谓词必须是"纯视觉可判定的",禁止推断 affordance、reachability 等不可见属性。 ### Step 3:算子学习(Operator Learning) 用发明的谓词集合,从数据中学习 PDDL 风格的规划算子(preconditions + effects)。这些算子可以直接塞进任何经典规划器(如 MetricFF)。 循环继续:新算子 → 提出新的探索序列 → 收集更多数据 → 发明更多谓词 → 更新算子。 progressively improving。 --- ## 理论保证:Sound & Complete 这是 SkillWrapper 区别于所有 VLM-直接规划方法(如 ViLa)的关键。 论文提供了形式化证明: - Soundness:学到的模型不会生成 unsound 的计划(不会在 precondition 不满足时执行技能) - Completeness:如果任务可解,学到的模型保证能找到解 这个保证不是启发式的,是数学证明。条件是:谓词集合需要满足特定覆盖性质(coverage property),而 SkillWrapper 的谓词发明算法被设计成逐步逼近这个条件。 --- ## 实验:从仿真到真实机器人 ### 仿真域:Robotouille(汉堡制作) | 方法 | Easy 解决率 | Hard 解决率 | Impossible 识别率 | |------|------------|------------|-----------------| | Expert Ops (oracle) | 81.0% | 58.1% | 100% | | SkillWrapper (Ours) | 74.0% | 40.0% | 100% | | System Predicates (固定8个谓词) | 79.0% | 22.0% | 42.0% | | No Heuristic (无引导探索) | 76.0% | 24.0% | 80% | | FM Invent (纯 FM 发明,无筛选) | 23.3% | 1.7% | 63.3% | | ViLa (VLM 直接规划) | 46.0% | 13.9% | 20.0% | | Random Exp. | 4.0% | 0% | 100% | 关键发现: - Hard 任务上远超所有 baseline,甚至超过 System Predicates(专家设计的8个固定谓词不足以覆盖复杂场景) - Impossible 任务 100% 识别:这是 soundness 的直接体现——不会盲目尝试不可能的任务 - 规划预算 (PB) 显著更低:模型更 complete,需要的试错更少 ### 真实机器人实验 Franka Emika Panda(单臂) - 任务:操作杯子、盘子、海绵、茶壶等 - 学到的模型包含 6 个谓词,1111 个 grounded instances - VLM 分类准确率 86.7% - 失败主要由特定谓词引起:gripper_emptyholding 在海绵上失败(颜色与背景太像) Bimanual Kuka(双臂) - 任务:用花生酱、刀、面包做三明治 - 6 个黑盒技能:LeftArmPick, RightArmPick, Open, Scoop, Spread, Drop - 多个 dead ends:刀掉落后不能再捡起,面包沾了花生酱后不能清洁 - 技能高度相互依赖 - 随迭代提升,最终超越所有 baseline - VLM 分类准确率 98.5% 关键洞察: > "Foundation models may more effectively ground and interpret predicate semantics when those abstractions are self-generated rather than manually defined by human experts." 模型自己发明的谓词,反而比人类专家定义的更容易被 VLM 正确分类。 --- ## VLM 可靠性深度分析 论文花了大量篇幅分析 VLM(GPT-5)作为"谓词分类器"的可靠性: ### Domain Shift 测试 - 换物体实例、换配置 - Franka stacked_on 准确率从 100% 降到 73.3%(小盘子被误分类为 saucer) - Kuka 几乎所有谓词保持 96-100% 准确率 ### 替代 VLM:Qwen3-VL-235B - 论文对比了开源 VLM 作为替代 - 结论:两者性能相当,可以互换使用 - Qwen3 在 holding 上更稳定(100% vs GPT-5 的 60%),但在 coated 上稍弱(90% vs 100%) 这意味着 SkillWrapper 不绑定闭源模型,开源 VLM 也能跑。 --- ## 失败模式分析(论文很诚实) 1. 谓词过度发明:一个额外谓词 on_cutting_board(item) 把数据分得太碎,导致算子过拟合。说明谓词发明和数据收集需要平衡。 2. 语义冗余:系统目前不过滤同义词/反义词,增加了 VLM 分类负担。 3. 感知误差传导:即使 VLM 整体准确率 86-98%,单个谓词的错误就能导致整个规划失败——符号规划的刚性使然。 4. VLM 不能识别外观偏离语义期望的物体:太小的盘子 → saucer。 --- ## 为什么这项工作重要 ### 1. bridging the perception-symbol gap 具身智能的最大鸿沟之一是"感知-符号"鸿沟。底层是像素和关节角度,高层是"杯子在桌子上"。SkillWrapper 用 VLM 作为桥梁,第一次让这个转化过程是自动的、可解释的、有理论保证的。 ### 2. 降低人工工程成本 传统 TAMP(Task and Motion Planning)需要专家手写 PDDL 域。SkillWrapper 让机器人"自己搞清楚自己的技能能干什么"。 ### 3. 与纯 VLM 规划方法的本质区别 ViLa 这类方法让 VLM 直接输出下一步动作。问题是: - 没有 soundness/completeness 保证 - 长线上容易累积错误 - 不可解释(黑盒决策) SkillWrapper 是先学模型,再规划。VLM 只负责"发明谓词"和"分类真值",实际的规划交给经典规划器——利用几十年积累的领域无关启发式和正确性保证。 ### 4. 可解释性 学到的谓词是人类可读的(ClearAbove(x), Coated(Knife))。你可以问"为什么机器人觉得现在不能拾取?" 答案是:"因为 ClearAbove(Mug) 为 false。" --- ## 局限与未来方向 1. 假设完全可观察:论文假设图像包含所有需要的信息。部分可观察场景(被遮挡的物体)尚未处理。 2. 谓词发明与数据获取的平衡:过度发明会导致过拟合,需要更精细的 scoring function。 3. VLM 成本:每次谓词分类都要调用 VLM,长线任务中调用次数可能很高。 4. 仅限于离散符号:连续参数(如"抓取位置")不在当前框架内。 5. 探索策略可以更强:当前的 skill sequence proposal 是 FM 启发式的,可以结合信息论方法。 --- ## 关联工作定位 | 方向 | 代表工作 | 与 SkillWrapper 的区别 | |------|---------|----------------------| | VLM 直接规划 | ViLa, SayCan | 无符号模型,无正确性保证 | | 手工 TAMP | PDDL + motion planner | 需要专家定义域 | | 自动域学习 | PDDLLM | 从 demonstration 推导,非主动探索 | | 神经符号 | Neural Logic Machines | 表示不可解释 | | 对比学习 | 各种 concept learning | 不针对机器人技能,无规划保证 | --- ## 参考链接 - arXiv: https://arxiv.org/abs/2511.18203 - 项目页: https://yzylmc.github.io/skill-wrapper/ - Robotouille 仿真环境: 见论文附录 - 代码与 prompts: 论文 supplementary materials(含 zip) - RSS 2025 Workshop 版本: https://rss25-roboreps.github.io/papers/26_SkillWrapper_Autonomously_L.pdf - ICRA 2025 Workshop 版本: https://dyalab.mines.edu/2025/icra-workshop/16.pdf #论文 #具身智能 #机器人 #符号规划 #VLM #PDDL #小凯

讨论回复 (0)