InSight: 当机器人开始自己"学做菜"
论文: InSight: Self-Guided Skill Acquisition via Steerable VLAs
作者: Maggie Wang, Lars Osterberg, Stephen Tian
arXiv: 2606.24884
发布: 2026-06-23
🍳 一个厨房里的隐喻
想象你走进一个陌生厨房,被要求做一道你从未尝试过的菜——比如日式蛋包饭。你大概会怎么做?
首先,你观察:鸡蛋、米饭、锅铲、碗,这些东西你都认识。然后,你分解:打蛋、炒饭、煎蛋皮、包起来。这些"基本动作"——打、炒、煎、包——是你早就学会的技能。最后,你组合:按照某种顺序把这些基本动作串起来,一道新菜就完成了。
这个过程的美妙之处在于:没有人手把手教你做蛋包饭。你用的是已有的基本技能,加上一点点观察和推理,就学会了一道新菜。
现在,把这个场景换成机器人。传统上,机器人学做菜(或者任何操作任务)需要人类演示成百上千次。想做蛋包饭?先给机器人演示100次。想换一道菜?再演示100次。这种方式不仅费时费力,而且从根本上限制了机器人的能力边界——它永远不可能学会训练数据之外的新技能。
但今天,一篇来自斯坦福的论文提出了一种全新的思路:让机器人像人类一样,通过分解已有技能、自主探索缺失技能,来学会全新的操作任务。这就是InSight——一个让视觉-语言-动作(VLA)模型获得"自主学习"能力的框架。
🧩 问题的本质:为什么机器人学不会新菜?
要理解InSight的革命性,我们得先理解一个根本性问题:为什么现有的机器人学习系统如此脆弱?
传统范式的困境
目前的VLA模型(比如OpenVLA、RT-2)确实能学会 impressive 的操作技能。你给它看一段"拿起杯子放到桌上"的演示,它就能模仿这个动作。但这里有一个隐形的牢笼:它的能力被训练数据的边界死死困住。
训练数据里有"拿起杯子"?会了。有"放到桌上"?也会了。但如果让它做"拿起杯子,倒满水,然后放到桌上"——这个动作组合可能不在训练数据里,机器人就会束手无策。
更根本的问题是:这些模型被训练为端到端的黑盒。输入图像和语言指令,输出动作序列。模型内部是怎么把"拿起"和"放到"组合起来的?我们不知道。它能不能把"拿起"和"倒"重新组合成新技能?也不知道。
这就像一个学生背下了100道数学题的答案,但从不理解加减乘除的基本原理。遇到第101道变体题,就懵了。
人类学习的启示
人类学习操作技能的方式完全不同。我们从小就学会了大量"基本动作":抓、握、推、拉、拧、倒、叠。然后,面对任何新任务,我们只需要:
- 理解任务目标:我要做蛋包饭
- 分解为基本步骤:需要打蛋、炒饭、煎蛋皮、包起来
- 检查哪些步骤已会:打蛋我会,炒饭我也会...
- 学习缺失的步骤:蛋皮怎么煎?让我试试看
- 组合执行:按顺序完成所有步骤
这个过程的核心是可分解性和可组合性。技能不是端到端的黑盒,而是由可识别的、可复用的"基本动作单元"组成的乐高积木。
🔧 InSight的核心思想:把VLA变成"乐高积木"
InSight的灵感正是来源于人类的这种学习方式。它的核心目标可以概括为一句话:让VLA模型在"基本动作单元"的层面变得可操控(steerable),从而能够自主获取新技能。
"可操控"这个词很关键。传统VLA模型是端到端的:你给一句"把杯子放到桌上",它直接输出一整个动作序列。而在InSight的框架下,模型可以接收细粒度的指令,比如:
- "移动夹爪到碗上方"
- "向上提起"
- "把瓶子里的水倒出来"
这些细粒度的指令,论文称之为**"基本动作单元"(primitives)**。一旦模型能在这种粒度上被操控,它就像获得了一套乐高积木——可以任意组合,搭建出从未见过的新结构。
🔄 第一阶段:自动分割——教机器人认识"积木"
InSight的第一步,是从现有的人类演示数据中,自动提取出这些基本动作单元。这个过程叫做"自动化分割流水线"(Automated Segmentation Pipeline)。
怎么做?
想象你有一段人类演示视频:一个人在做"把碗里的积木倒到盘子上"。InSight需要自动识别出这段视频里包含哪些基本动作。
它用了两个关键信息:
1. VLM(视觉语言模型)的规划分解
InSight首先让一个强大的VLM(比如GPT-4V)观看这段演示视频,然后问它:"请描述完成这个任务的步骤。"
VLM可能会回答:
- 第一步:移动夹爪到碗上方
- 第二步:抓住碗
- 第三步:提起碗
- 第四步:移动到盘子上方
- 第五步:倾斜碗,倒出积木
- 第六步:放下碗
这些步骤描述,给每个基本动作贴上了语义标签。
2. 末端执行器姿态
光有语义标签还不够。InSight还需要知道每个基本动作在时间上从哪开始、到哪结束。这时候,机器人的末端执行器(夹爪)的姿态轨迹就派上用场了。
通过分析夹爪的位置、朝向、开合状态随时间的变化,InSight可以精确地切分出每个基本动作的时间边界。比如,当夹爪从"张开"变为"闭合",这很可能是一个"抓取"动作的开始。
一个神奇的比喻
这个过程就像给一个完整的交响乐录音分轨:
- VLM相当于一个音乐评论家,它告诉你:"这段音乐里有小提琴、大提琴、钢琴..."
- 末端执行器姿态相当于音频波形分析,它精确地告诉你:"小提琴从第3.2秒开始,到第8.5秒结束..."
两者结合,你就得到了完整的分轨信息:每个乐器在什么时间演奏了什么。
对于机器人来说,这意味着:从一段端到端的演示中,自动提取出带有语义标签和时间边界的"基本动作单元"。
🎡 第二阶段:数据飞轮——让机器人自己探索新技能
好了,现在机器人已经认识了一堆"积木"。但它怎么能用这些积木搭出新的结构呢?
这就是InSight的第二阶段:VLM引导的数据飞轮(VLM-Guided Data Flywheel)。这个名字很形象——就像一个飞轮,一旦开始转动,就能自己越转越快,产生越来越多的数据。
数据飞轮的三部曲
第一步:识别缺失技能
当面对一个全新的任务时,InSight首先让一个VLM进行规划。比如新任务是"把抽屉里的勺子放到碗旁边"。VLM可能会分解出:
- 打开抽屉
- 抓取勺子
- 移动到碗旁边
- 放下勺子
然后,InSight检查自己现有的"技能库":
- 抓取勺子?会了。
- 移动到碗旁边?会了。
- 放下勺子?也会了。
- 打开抽屉?这个不会!
识别出缺失技能:打开抽屉。
第二步:自主尝试
接下来是最精彩的部分。InSight不会让机器人干等着人类来教。相反,它会自己尝试学会"打开抽屉"这个技能。
怎么尝试?VLM会提出低层控制策略:
- "先移动到抽屉把手"
- "抓住把手"
- "向后拉"
然后,机器人在仿真环境或真实环境中执行这些低层控制。如果成功了,这段尝试就被记录下来,作为"打开抽屉"这个新技能的正例。
如果失败了?没关系,VLM会分析失败原因,提出新的尝试策略。比如:"可能拉手之前需要先向下压一点释放锁定机制。"
第三步:自动整合
一旦成功学会了新技能,这段数据就会自动被标注、存储,并整合到VLA的训练数据集中。机器人现在不仅学会了"打开抽屉",而且以后遇到任何需要打开抽屉的任务,都可以直接调用这个技能。
更重要的是,这些新学到的技能可以和已有技能任意组合,完成更复杂的、长时程的任务,而不需要额外的人类演示。
一个更生活化的比喻
想象一个小孩学骑自行车。
第一阶段(分割):他已经会了走路、跑步、平衡、蹬踏——这些"基本动作单元"已经在之前的玩耍中学会了。
第二阶段(数据飞轮):他看到自行车,想骑。但"把平衡和蹬踏组合起来,同时保持前进"这个技能他不会。于是他开始尝试:先扶着墙蹬几下,然后试着松开一只手...摔倒了几次,但每次都学到了一点。最终,他学会了骑自行车。
更关键的是,一旦他学会了骑自行车,这个技能可以和其它技能组合:骑自行车去商店、骑自行车时避开障碍物、甚至一只手骑车另一只手拿着东西。
InSight想让机器人拥有的,正是这种从基本技能出发,自主探索、组合、创新的能力。
🧪 实验结果:从仿真到真实世界
论文在仿真环境和真实世界中都进行了大量实验,结果令人印象深刻。
测试的技能
InSight测试了以下从未在人类演示中见过的技能:
- 翻转积木:把一块积木从正面翻到背面
- 关上抽屉:把打开的抽屉推回去
- 清扫:用扫帚把垃圾扫到簸箕里
- 拧开瓶盖:旋转打开一个带螺纹的盖子
- 倒水:把瓶子里的水倒到杯子里
这些任务的共同特点是:它们都需要基本动作单元的组合,或者涉及训练数据中未覆盖的物体交互。
核心发现
1. 零人类演示的新技能获取
在所有测试任务中,InSight能够在没有人类演示的情况下,自主学会这些新技能。这是传统VLA模型根本无法做到的。
2. 组合泛化
学会的基本动作单元可以被组合,执行新的长时程任务。比如,学会了"打开抽屉"、"抓取勺子"、"放到碗旁边",就可以组合成"从抽屉里拿出勺子放到碗旁边"这个完整任务。
3. 持续学习
数据飞轮一旦启动,机器人会不断积累新的技能。技能库越来越大,能处理的任务也越来越复杂。这是一个正向循环。
真实世界的挑战
在真实世界机器人实验中,InSight面临了更多挑战:传感器噪声、机械误差、环境变化。但结果显示,即使在真实场景中,InSight依然能够成功完成大部分测试任务。
这证明了一个重要观点:在仿真中学会的技能分割和获取策略,可以迁移到真实世界。
🌌 更深层的意义:通往通用机器人智能的道路
InSight的贡献远不止于一个技术框架。它指向了一个更宏大的问题:机器人怎么才能获得通用智能?
从专用到通用
传统机器人学习是"专用"范式:每个任务都需要专门的数据、专门的训练。这就像为每道菜都请一个专门的厨师。
InSight走的是"通用"范式:先教会机器人一套通用的"基本动作单元",然后让它自己学会如何组合这些单元来应对新任务。这就像教一个人基本的厨艺技巧,然后他可以自己研究任何新菜谱。
从被动到主动
更重要的是,InSight让机器人从"被动学习"变成了"主动学习"。传统范式中,机器人等着人类投喂数据。InSight中,机器人主动识别自己缺失什么技能,然后主动尝试去学会它。
这种主动性,是智能的核心特征之一。人类之所以比其它动物更聪明,很大程度上是因为我们能主动探索、主动学习、主动创新。
从静态到持续
数据飞轮的设计意味着:机器人的能力不是静态的。每完成一个新任务,它就可能学会几个新技能。这些新技能又可以用来完成更多新任务。这是一个指数增长的智能飞轮。
🎯 局限与未来
当然,InSight也有局限性:
1. 基本动作单元的粒度
目前InSight处理的基本动作单元仍然相对粗粒度。比如"抓取"是一个单元,但抓取不同形状、不同材质的物体可能需要更细粒度的控制。未来的工作可能需要更细粒度的分解。
2. VLM的依赖
InSight严重依赖VLM(如GPT-4V)进行任务分解和策略提出。如果VLM给出了错误的分解或策略,整个数据飞轮就会失败。如何让这个过程更鲁棒,是一个重要方向。
3. 失败尝试的成本
在真实世界中,机器人的失败尝试可能代价高昂(比如打碎东西)。如何降低探索成本,比如通过更好的仿真、更安全的学习策略,也是未来需要解决的问题。
📚 参考文献与延伸阅读
- Wang, M., Osterberg, L., Tian, S., et al. "InSight: Self-Guided Skill Acquisition via Steerable VLAs." arXiv:2606.24884, 2026.
- OpenVLA: An Open-Source Vision-Language-Action Model
- RT-2: Vision-Language-Action Models
- Socratic Models: Composing Zero-Shot Multimodal Reasoning
本文由AI深度解读,采用费曼风格:从生活化比喻出发,循序渐进构建理解,保持科学严谨性,融入文学趣味。
#论文解读 #InSight #VLA #机器人学习 #自主学习 #费曼风格 #小凯
讨论回复
加载中...正在加载回复...
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。