InSight: 当机器人开始自己"学做菜"

论文: InSight: Self-Guided Skill Acquisition via Steerable VLAs 作者: Maggie Wang, Lars Osterberg, Stephen Tian arXiv: 2606.24884 发布: 2026-06-23

---

🍳 一个厨房里的隐喻

想象你走进一个陌生厨房，被要求做一道你从未尝试过的菜——比如日式蛋包饭。你大概会怎么做？

首先，你观察：鸡蛋、米饭、锅铲、碗，这些东西你都认识。然后，你分解：打蛋、炒饭、煎蛋皮、包起来。这些"基本动作"——打、炒、煎、包——是你早就学会的技能。最后，你组合：按照某种顺序把这些基本动作串起来，一道新菜就完成了。

这个过程的美妙之处在于：没有人手把手教你做蛋包饭。你用的是已有的基本技能，加上一点点观察和推理，就学会了一道新菜。

现在，把这个场景换成机器人。传统上，机器人学做菜（或者任何操作任务）需要人类演示成百上千次。想做蛋包饭？先给机器人演示100次。想换一道菜？再演示100次。这种方式不仅费时费力，而且从根本上限制了机器人的能力边界——它永远不可能学会训练数据之外的新技能。

但今天，一篇来自斯坦福的论文提出了一种全新的思路：让机器人像人类一样，通过分解已有技能、自主探索缺失技能，来学会全新的操作任务。这就是InSight——一个让视觉-语言-动作（VLA）模型获得"自主学习"能力的框架。

---

🧩 问题的本质：为什么机器人学不会新菜？

要理解InSight的革命性，我们得先理解一个根本性问题：为什么现有的机器人学习系统如此脆弱？

传统范式的困境

目前的VLA模型（比如OpenVLA、RT-2）确实能学会 impressive 的操作技能。你给它看一段"拿起杯子放到桌上"的演示，它就能模仿这个动作。但这里有一个隐形的牢笼：它的能力被训练数据的边界死死困住。

训练数据里有"拿起杯子"？会了。有"放到桌上"？也会了。但如果让它做"拿起杯子，倒满水，然后放到桌上"——这个动作组合可能不在训练数据里，机器人就会束手无策。

更根本的问题是：这些模型被训练为端到端的黑盒。输入图像和语言指令，输出动作序列。模型内部是怎么把"拿起"和"放到"组合起来的？我们不知道。它能不能把"拿起"和"倒"重新组合成新技能？也不知道。

这就像一个学生背下了100道数学题的答案，但从不理解加减乘除的基本原理。遇到第101道变体题，就懵了。

人类学习的启示

人类学习操作技能的方式完全不同。我们从小就学会了大量"基本动作"：抓、握、推、拉、拧、倒、叠。然后，面对任何新任务，我们只需要：

1. 理解任务目标：我要做蛋包饭 2. 分解为基本步骤：需要打蛋、炒饭、煎蛋皮、包起来 3. 检查哪些步骤已会：打蛋我会，炒饭我也会... 4. 学习缺失的步骤：蛋皮怎么煎？让我试试看 5. 组合执行：按顺序完成所有步骤

这个过程的核心是可分解性和可组合性。技能不是端到端的黑盒，而是由可识别的、可复用的"基本动作单元"组成的乐高积木。

---

🔧 InSight的核心思想：把VLA变成"乐高积木"

InSight的灵感正是来源于人类的这种学习方式。它的核心目标可以概括为一句话：让VLA模型在"基本动作单元"的层面变得可操控（steerable），从而能够自主获取新技能。

"可操控"这个词很关键。传统VLA模型是端到端的：你给一句"把杯子放到桌上"，它直接输出一整个动作序列。而在InSight的框架下，模型可以接收细粒度的指令，比如：

"移动夹爪到碗上方"
"向上提起"
"把瓶子里的水倒出来"

这些细粒度的指令，论文称之为"基本动作单元"（primitives）。一旦模型能在这种粒度上被操控，它就像获得了一套乐高积木——可以任意组合，搭建出从未见过的新结构。

---

🔄 第一阶段：自动分割——教机器人认识"积木"

InSight的第一步，是从现有的人类演示数据中，自动提取出这些基本动作单元。这个过程叫做"自动化分割流水线"（Automated Segmentation Pipeline）。

怎么做？

想象你有一段人类演示视频：一个人在做"把碗里的积木倒到盘子上"。InSight需要自动识别出这段视频里包含哪些基本动作。

它用了两个关键信息：

1. VLM（视觉语言模型）的规划分解

InSight首先让一个强大的VLM（比如GPT-4V）观看这段演示视频，然后问它："请描述完成这个任务的步骤。"

VLM可能会回答：

第一步：移动夹爪到碗上方
第二步：抓住碗
第三步：提起碗
第四步：移动到盘子上方
第五步：倾斜碗，倒出积木
第六步：放下碗

这些步骤描述，给每个基本动作贴上了语义标签。

2. 末端执行器姿态

光有语义标签还不够。InSight还需要知道每个基本动作在时间上从哪开始、到哪结束。这时候，机器人的末端执行器（夹爪）的姿态轨迹就派上用场了。

通过分析夹爪的位置、朝向、开合状态随时间的变化，InSight可以精确地切分出每个基本动作的时间边界。比如，当夹爪从"张开"变为"闭合"，这很可能是一个"抓取"动作的开始。

一个神奇的比喻

这个过程就像给一个完整的交响乐录音分轨：

VLM相当于一个音乐评论家，它告诉你："这段音乐里有小提琴、大提琴、钢琴..."
末端执行器姿态相当于音频波形分析，它精确地告诉你："小提琴从第3.2秒开始，到第8.5秒结束..."

两者结合，你就得到了完整的分轨信息：每个乐器在什么时间演奏了什么。

对于机器人来说，这意味着：从一段端到端的演示中，自动提取出带有语义标签和时间边界的"基本动作单元"。

---

🎡 第二阶段：数据飞轮——让机器人自己探索新技能

好了，现在机器人已经认识了一堆"积木"。但它怎么能用这些积木搭出新的结构呢？

这就是InSight的第二阶段：VLM引导的数据飞轮（VLM-Guided Data Flywheel）。这个名字很形象——就像一个飞轮，一旦开始转动，就能自己越转越快，产生越来越多的数据。

数据飞轮的三部曲

第一步：识别缺失技能

当面对一个全新的任务时，InSight首先让一个VLM进行规划。比如新任务是"把抽屉里的勺子放到碗旁边"。VLM可能会分解出：

打开抽屉
抓取勺子
移动到碗旁边
放下勺子

然后，InSight检查自己现有的"技能库"：

抓取勺子？会了。
移动到碗旁边？会了。
放下勺子？也会了。
打开抽屉？这个不会！

识别出缺失技能：打开抽屉。

第二步：自主尝试

接下来是最精彩的部分。InSight不会让机器人干等着人类来教。相反，它会自己尝试学会"打开抽屉"这个技能。

怎么尝试？VLM会提出低层控制策略：

"先移动到抽屉把手"
"抓住把手"
"向后拉"

然后，机器人在仿真环境或真实环境中执行这些低层控制。如果成功了，这段尝试就被记录下来，作为"打开抽屉"这个新技能的正例。

如果失败了？没关系，VLM会分析失败原因，提出新的尝试策略。比如："可能拉手之前需要先向下压一点释放锁定机制。"

第三步：自动整合

一旦成功学会了新技能，这段数据就会自动被标注、存储，并整合到VLA的训练数据集中。机器人现在不仅学会了"打开抽屉"，而且以后遇到任何需要打开抽屉的任务，都可以直接调用这个技能。

更重要的是，这些新学到的技能可以和已有技能任意组合，完成更复杂的、长时程的任务，而不需要额外的人类演示。

一个更生活化的比喻

想象一个小孩学骑自行车。

第一阶段（分割）：他已经会了走路、跑步、平衡、蹬踏——这些"基本动作单元"已经在之前的玩耍中学会了。

第二阶段（数据飞轮）：他看到自行车，想骑。但"把平衡和蹬踏组合起来，同时保持前进"这个技能他不会。于是他开始尝试：先扶着墙蹬几下，然后试着松开一只手...摔倒了几次，但每次都学到了一点。最终，他学会了骑自行车。

更关键的是，一旦他学会了骑自行车，这个技能可以和其它技能组合：骑自行车去商店、骑自行车时避开障碍物、甚至一只手骑车另一只手拿着东西。

InSight想让机器人拥有的，正是这种从基本技能出发，自主探索、组合、创新的能力。

---

🧪 实验结果：从仿真到真实世界

论文在仿真环境和真实世界中都进行了大量实验，结果令人印象深刻。

测试的技能

InSight测试了以下从未在人类演示中见过的技能：

翻转积木：把一块积木从正面翻到背面
关上抽屉：把打开的抽屉推回去
清扫：用扫帚把垃圾扫到簸箕里
拧开瓶盖：旋转打开一个带螺纹的盖子
倒水：把瓶子里的水倒到杯子里

这些任务的共同特点是：它们都需要基本动作单元的组合，或者涉及训练数据中未覆盖的物体交互。

核心发现

1. 零人类演示的新技能获取

在所有测试任务中，InSight能够在没有人类演示的情况下，自主学会这些新技能。这是传统VLA模型根本无法做到的。

2. 组合泛化

学会的基本动作单元可以被组合，执行新的长时程任务。比如，学会了"打开抽屉"、"抓取勺子"、"放到碗旁边"，就可以组合成"从抽屉里拿出勺子放到碗旁边"这个完整任务。

3. 持续学习

数据飞轮一旦启动，机器人会不断积累新的技能。技能库越来越大，能处理的任务也越来越复杂。这是一个正向循环。

真实世界的挑战

在真实世界机器人实验中，InSight面临了更多挑战：传感器噪声、机械误差、环境变化。但结果显示，即使在真实场景中，InSight依然能够成功完成大部分测试任务。

这证明了一个重要观点：在仿真中学会的技能分割和获取策略，可以迁移到真实世界。

---

🌌 更深层的意义：通往通用机器人智能的道路

InSight的贡献远不止于一个技术框架。它指向了一个更宏大的问题：机器人怎么才能获得通用智能？

从专用到通用

传统机器人学习是"专用"范式：每个任务都需要专门的数据、专门的训练。这就像为每道菜都请一个专门的厨师。

InSight走的是"通用"范式：先教会机器人一套通用的"基本动作单元"，然后让它自己学会如何组合这些单元来应对新任务。这就像教一个人基本的厨艺技巧，然后他可以自己研究任何新菜谱。

从被动到主动

更重要的是，InSight让机器人从"被动学习"变成了"主动学习"。传统范式中，机器人等着人类投喂数据。InSight中，机器人主动识别自己缺失什么技能，然后主动尝试去学会它。

这种主动性，是智能的核心特征之一。人类之所以比其它动物更聪明，很大程度上是因为我们能主动探索、主动学习、主动创新。

从静态到持续

数据飞轮的设计意味着：机器人的能力不是静态的。每完成一个新任务，它就可能学会几个新技能。这些新技能又可以用来完成更多新任务。这是一个指数增长的智能飞轮。

---

🎯 局限与未来

当然，InSight也有局限性：

1. 基本动作单元的粒度

目前InSight处理的基本动作单元仍然相对粗粒度。比如"抓取"是一个单元，但抓取不同形状、不同材质的物体可能需要更细粒度的控制。未来的工作可能需要更细粒度的分解。

2. VLM的依赖

InSight严重依赖VLM（如GPT-4V）进行任务分解和策略提出。如果VLM给出了错误的分解或策略，整个数据飞轮就会失败。如何让这个过程更鲁棒，是一个重要方向。

3. 失败尝试的成本

在真实世界中，机器人的失败尝试可能代价高昂（比如打碎东西）。如何降低探索成本，比如通过更好的仿真、更安全的学习策略，也是未来需要解决的问题。

---

📚 参考文献与延伸阅读

Wang, M., Osterberg, L., Tian, S., et al. "InSight: Self-Guided Skill Acquisition via Steerable VLAs." arXiv:2606.24884, 2026.
OpenVLA: An Open-Source Vision-Language-Action Model
RT-2: Vision-Language-Action Models
Socratic Models: Composing Zero-Shot Multimodal Reasoning

---

*本文由AI深度解读，采用费曼风格：从生活化比喻出发，循序渐进构建理解，保持科学严谨性，融入文学趣味。*

#论文解读 #InSight #VLA #机器人学习 #自主学习 #费曼风格 #小凯