当机械臂学会了"看山不是山"：XSkill如何让机器人从人类视频中读懂技能的真谛

> "你在 YouTube 上看一个人切菜，然后你的机器人就能学会同样的动作——这不是科幻，这是 XSkill。"

---

🎭 开场：一个看似不可能的任务

想象一下这样的场景：

你坐在沙发上，打开手机，看到一段美食博主切洋葱的视频。你的手指轻轻滑动，眼睛跟随着刀锋的起落，你"看懂了"这个动作——手腕的角度、刀刃与砧板的接触、手指如何弯曲来保护指尖。你甚至可以在看完后，走到厨房里，拿起刀，模仿出八九不离十的动作。

这对你来说毫不费力。

但如果是机器人呢？

假设你家里有一个机械臂助手。你给它看同一段切洋葱的视频，然后期待它也能走进厨房，拿起刀，完成同样的动作。结果会怎样？

它可能会茫然地停在原地，或者做出一些令人啼笑皆非的动作——比如试图用它的夹爪去"握住"视频里的刀，或者完全不理解什么是"切"。

为什么会这样？

因为人类和机器人之间，存在着一道巨大的鸿沟。我们有灵活的手指、敏锐的触觉、数万年进化积累的运动本能。而机器人只有几个关节电机、一对摄像头、和一个需要从头学习的"大脑"。更重要的是——人类有血肉之躯，机器人有金属之躯。这就是"具身差异"（Embodiment Gap）。

你可能会问："那又怎样？视频里不就是把动作都录下来了吗？机器人照着做不就行了？"

这是一个非常自然的问题。但让我用一个比喻来解释其中的困难。

想象一下，你是一个外星人，来到地球，从来没有见过钢琴。你看到一个人坐在钢琴前，手指在黑白键上飞舞，美妙的音乐流淌出来。现在，有人给你看一段这个钢琴家的手部特写视频，然后问你："学会了吗？去弹一首吧。"

你会遇到什么问题？

首先，你没有钢琴家的手。他可能有两只手，每只手有五根灵活的手指，而你可能只有触手，或者完全不同的肢体结构。其次，你不知道那些琴键对应什么音高。再次，即使你看到了他的手指位置，你也无法理解"力度"、"节奏"、"情感"这些抽象的东西。

这就是机器人面对人类视频时的困境。

但2023年，来自哥伦比亚大学和摩根大通AI研究院的一群研究者，提出了一个革命性的框架——XSkill（Cross Embodiment Skill Discovery，跨具身技能发现）。他们的目标，就是教会机器人"看懂"人类视频中的技能，然后用自己的身体去执行。

这不是简单的模仿，这是一种"翻译"——从人类的语言（动作），翻译成机器人的语言（控制信号）。而且，这个翻译过程，机器人要自己学会，不需要人类一点点标注。

听起来像魔法？让我们一步步揭开这个魔法背后的科学原理。

---

🔍 第一章：跨越物种的鸿沟——什么是"跨具身学习"

1.1 具身差异：当苹果遇上橘子

在人工智能领域，有一个古老而又现代的问题：智能是否必须与某种特定的身体绑定？

换句话说，如果你教会了一只狗接飞盘，这个"接飞盘"的技能，能否转移给一只猫？或者，更进一步，能否转移给一只机械臂？

传统上，我们认为技能是高度与特定身体绑定的。人类学骑自行车，需要平衡感、腿部力量、对车把的微调——这些都是建立在我们有双腿、有内耳前庭系统的基础上的。你不可能直接把这个技能教给一条蛇。

但在机器人的世界里，这种"具身差异"变得更加极端。

让我们具体看看人类和典型机械臂之间的差异：

维度	人类	典型机械臂
末端执行器	10根灵活手指，26个自由度	2指夹爪或3指抓手，1-6个自由度
感知方式	触觉、温度、本体感觉、视觉深度融合	主要依赖摄像头和关节编码器
运动方式	肌肉收缩，柔顺且连续	电机驱动，离散且刚性
控制带宽	神经信号，毫秒级	控制循环，通常10-100Hz
学习能力	多年进化+终身学习	从零开始，完全依赖算法

这种差异，在AI领域被称为"具身鸿沟"（Embodiment Gap）。

你可能会问："那我们为什么不直接给机器人装一双手呢？"

好问题！事实上，确实有很多研究者在开发人形机器人和灵巧手。但这带来两个问题：

第一，成本。一双具有人类灵巧度的机械手，价格可能是几十万甚至上百万美元。而一个简单的二指夹爪，可能只需要几百美元。

第二，复杂性。越复杂的身体，控制难度越大。人类的大脑经过了数百万年的进化来处理这双手。机器人没有这种进化优势，它要从头学习如何控制几十个关节。

所以，如果我们能让一个便宜的、简单的机械臂，学会从人类视频中学习技能，那将是一个巨大的突破。

1.2 模仿学习的困境

模仿学习（Imitation Learning）是机器人学习的主流范式之一。基本思路是：让人类演示一遍，机器人观察并模仿。

这听起来很直观。但在实际操作中，研究者遇到了一个大麻烦：

数据稀缺性。

如果你要教机器人学习"打开抽屉"这个动作，传统方法需要什么呢？

你需要一个机器人，一个程序员，然后让程序员控制机器人打开抽屉几百次，记录下每一次的画面和对应的电机指令。这个过程既昂贵又耗时。而且，如果你换了一个不同品牌的机器人，或者不同的抽屉，你可能需要重新收集数据。

相比之下，人类视频简直就是一座金矿。

YouTube 上有数十亿小时的人类操作视频。做饭、修理、组装家具、系鞋带……这些视频包含了人类积累千年的技能知识。如果机器人能从中学习，那将是取之不尽、用之不竭的学习材料。

问题是——这些视频都是"无标注"的。

什么叫"无标注"？就是没有"说明书"。视频里只有画面，没有告诉你"这是手腕在移动"、"这是手指在发力"、"这个动作的目的是抓取"。机器人看着这些视频，就像你看一部没有字幕的外语电影——你能看到画面，但不知道具体在说什么。

更麻烦的是，视频里的人，和机器人，长得完全不一样。

当视频里的人张开手掌时，机器人的夹爪应该怎么反应？当人的手指弯曲握住一个杯子时，机器人的电机应该输出什么力矩？

这就像是让一只章鱼学习骑自行车——不是不可能，但需要一种全新的学习范式。

---

🧠 第二章：XSkill的核心洞见——在抽象中找到统一

2.1 "技能原型"：技能的"灵魂"

XSkill 的作者们提出了一个关键洞见：

尽管人类和机器人的身体不同，但他们可以执行"相同"的技能。

这个"相同"是什么意思？

让我再举一个比喻。

想象"开门"这个技能。

一个人开门，可能是用右手握住门把手，向下压，然后向内推。一个机器人开门，可能是用它的夹爪夹住门把手，电机旋转带动手臂下压，然后底盘向前移动产生推力。

从物理动作来看，这两个过程完全不同。一个是骨骼肌肉的协调运动，一个是电机齿轮的精确控制。

但是，从更高的抽象层次来看，它们在执行同一个"概念"：抓握-下压-推动。

这个"抓握-下压-推动"，就是一种"技能原型"（Skill Prototype）。

你可以把它理解为技能的"灵魂"或"本质"——剥离了具体身体执行细节之后的纯粹意图。人类用血肉之躯执行这个意图，机器人用金属关节执行这个意图，但意图本身是相同的。

XSkill 的目标，就是从无标注的人类和机器人视频中，自动发现这些技能原型。

你可能会问："这个技能原型，具体是什么形式呢？是一个符号？一张图片？一段代码？"

这是一个非常深刻的问题。在 XSkill 中，技能原型是一种向量表示——具体来说，是一个高维空间中的点。这个向量捕捉了技能的本质特征，同时又足够抽象，可以被不同的具身所"实例化"。

想象一下颜色。"红色"这个概念，可以用 RGB 值 (255, 0, 0) 来表示。但这个 RGB 值只是一个数字描述，它本身不是红色。真正的红色，可以是苹果、可以是火焰、可以是晚霞——它们是红色在不同载体上的"实例化"。

同样，一个技能原型向量，不是具体的动作，而是动作的"蓝图"。机器人拿到这个蓝图后，需要根据自己的身体结构，"翻译"成具体的控制信号。

2.2 对比学习：让相似的靠近，让不同的远离

那么，XSkill 是如何发现这些技能原型的呢？

这里就用到了一个强大的机器学习技术——对比学习（Contrastive Learning）。

简单来说，对比学习的思想是：如果两段视频展示的是同一个技能，那么它们在表示空间中应该靠得很近；如果是不同的技能，它们应该离得很远。

想象一下，你在整理一个巨大的图书馆。你手里有成千上万本书，但没有任何目录或标签。你怎么办？

你可能会开始阅读，然后把讲"烹饪"的书放在一起，把讲"历史"的书放在一起，把讲"科幻"的书放在一起。你不需要有人告诉你"这是一本烹饪书"——你只需要发现，这些书的内容彼此相似，而与其他书不同。

对比学习就是这样工作的。

XSkill 的神经网络会"观看"大量的人类和机器人视频。它会问：这两段视频是否展示了相同的技能？

如果是，它会调整网络的参数，使得这两段视频在向量空间中更加接近。如果不是，它会让它们远离。

经过大量的训练，网络学会了一个"技能嵌入空间"（Skill Embedding Space）。在这个空间中，每一个点都对应一种技能原型。无论你展示的是人类开门，还是机器人开门，它们都会被映射到同一个点附近。

你可能会问："网络怎么知道两段视频是不是同一个技能呢？毕竟视频是没有标注的。"

这是一个非常好的问题，也是 XSkill 的一个 clever（聪明）之处。

XSkill 使用了一个自监督（Self-Supervised）的技巧。它的基本假设是：如果两段视频展示的是同一个技能，那么你应该可以从其中一段预测出另一段的某些特征。

具体来说，XSkill 使用了一个技巧叫"时间循环一致性"（Temporal Cycle-Consistency）。想象一下，你有两段视频，分别展示人类和机器人执行同一个任务。如果你从人类视频的中间切出一小段，问网络："机器人在什么时刻执行了对应的动作？"网络应该能够找到机器人视频中对应的帧。

然后，你可以反过来：从机器人视频的那个帧，再找回人类视频原来的位置。如果找到了原来的位置，说明这个"往返"是一致的，两段视频确实展示的是同一个技能。

通过这种自监督的信号，XSkill 可以在没有任何人工标注的情况下，学会区分不同的技能，并将相同的技能聚类在一起。

---

🎨 第三章：技能原型的发现之旅

3.1 从无序中提取秩序

让我们深入 XSkill 的内部机制，看看它是如何从混乱的视频中提取出有序的技能原型的。

XSkill 的整个框架可以分为三个主要部分：

1. 技能发现（Skill Discovery）：从无标注视频中学习技能原型 2. 技能迁移（Skill Transfer）：将技能原型转化为机器人可执行的动作 3. 技能组合（Skill Composition）：将多个技能组合成复杂任务

我们先来看第一部分：技能发现。

想象你是一个婴儿，第一次看到世界。你看到了无数的动作：人在走路、狗在奔跑、车在移动。你没有任何先验知识，但你开始注意到某些模式。

你注意到，当人"抓取"东西时，总会有一个"伸手-合拢手指-握住"的模式。无论抓取的是杯子、苹果还是书，这个模式都存在。只是具体的手形、力度、角度有所不同。

XSkill 做的就是这样的事情。它通过一个叫"时序技能编码器"（Temporal Skill Encoder）的神经网络，将一段视频映射成一个技能向量。

这个编码器的设计非常精巧。它不是只看视频的某一帧，而是看一个时间窗口内的连续画面。为什么？

因为技能是动态的。"切菜"不是一张静态图片，而是一个动作序列。你需要看到刀的起落，才能理解"切"的含义。只看刀在空中的一张照片，你无法区分是"切下去"还是"抬起来"。

所以，时序技能编码器会"消化"一小段视频（比如2秒钟），然后输出一个向量。这个向量就是这段视频所展示技能的"摘要"。

3.2 聚类与原型

现在，XSkill 有了大量的视频片段，每个片段都被转换成了一个向量。下一步是：找出这些向量的"中心"，也就是技能原型。

这里用到了一个经典的技术：聚类（Clustering）。

想象一下，你在一张纸上随机撒了很多点。这些点代表不同的技能实例。然后你发现，某些区域的点特别密集——那里可能有一个"聚类中心"。

XSkill 使用了一种叫做"向量量化"（Vector Quantization）的技术。它会维护一个"码本"（Codebook），里面包含若干个"码向量"——这些就是技能原型。

当一个新的视频向量进来时，XSkill 会找出码本中最接近的那个码向量，然后将这个视频"分配"给那个技能原型。

这个过程会不断迭代。随着看到的视频越来越多，码向量会被不断更新，以更好地代表它们各自的技能类别。

最终，XSkill 会得到一个技能库——假设有50个技能原型。每个原型代表一种抽象的技能：抓取、推动、旋转、挤压……

你可能会问："为什么是50个？不能是100个或者10个吗？"

这确实是一个超参数，需要根据具体任务来调整。如果技能原型太多，每个原型可能过于具体，失去了"跨具身"的通用性。如果太少，不同的技能可能被混为一谈。

XSkill 的作者通过实验发现，在厨房操作任务中，几十个技能原型是一个不错的平衡点。

3.3 跨具身的桥梁

现在，XSkill 拥有了一个重要的资产：一个共享的技能空间，人类视频和机器人视频都可以被映射到这个空间中。

这就是跨具身迁移的桥梁。

当 XSkill 看到一段人类开门的视频时，它会通过时序技能编码器，将其映射到技能空间中的一个点。这个点靠近"开门"的技能原型。

同样，当 XSkill 看到一段机器人开门的视频时，它也会被映射到同一个技能原型附近。

尽管人类的动作和机器人的动作看起来完全不同，但它们在抽象的技能空间中是"同一回事"。

这就像不同语言中的同一个词。英语中的"apple"，中文的"苹果"，日语的"リンゴ"，写法完全不同，但它们指向同一个概念。如果你有一个多语言的词典，你就可以在不同语言之间翻译。

XSkill 的技能空间，就是这样一个"多具身词典"。

---

🤖 第四章：从抽象到具象——技能迁移的魔法

4.1 条件扩散策略

现在到了最精彩的部分：机器人如何利用这些技能原型来实际执行任务？

这就涉及到了 XSkill 的第二个核心组件：条件扩散策略（Conditional Diffusion Policy）。

但首先，我需要解释一下什么是"扩散模型"（Diffusion Model），因为这是近年来AI领域最激动人心的突破之一。

4.2 扩散模型：从噪声中创造秩序

想象你有一张清晰的照片。现在，你向这张照片一点一点地加入噪声——就像电视信号不好时的雪花屏。经过足够多的步骤，照片变成了一片纯粹的随机噪声，完全看不出原来的内容。

扩散模型的训练过程，就是学习如何逆转这个过程。给它一片噪声，它能一步一步地去除噪声，最终恢复出原始的照片。

为什么这很有用？因为如果你学会了从噪声恢复到"猫的照片"，你就可以从随机噪声中生成新的猫的照片——这些照片看起来像是真的猫，但世界上从来没有存在过。

这就是扩散模型在图像生成（如 DALL-E、Midjourney、Stable Diffusion）中如此成功的原因。

但 XSkill 的作者们有一个巧妙的想法：如果我们不把扩散模型用于生成图像，而是用于生成动作呢？

想象一下，机器人的动作空间也是一个高维空间。每一个动作（比如各个关节的角度）都可以看作是这个空间中的一个点。

如果我们可以训练一个扩散模型，让它学会"去噪"出合理的动作序列，那么我们就可以用它来生成平滑、自然的机器人动作。

而且，关键在于"条件"二字。这个扩散模型不是随便生成动作——它是有条件的。这个条件，就是我们在前一章学到的技能原型。

所以，当 XSkill 想执行"开门"这个动作时，它会：

1. 取出"开门"的技能原型向量 2. 将这个向量作为条件输入扩散模型 3. 扩散模型从随机噪声开始，逐步生成符合"开门"这个动作的动作序列 4. 最终输出一个平滑、自然的机器人控制信号

你可能会问："为什么是扩散模型，而不是其他方法，比如简单的神经网络直接输出动作？"

这是一个专业但重要的问题。

传统的模仿学习方法，通常训练一个神经网络，输入是当前状态（比如摄像头画面），输出是动作（比如电机指令）。这种方法简单直接，但有一个大问题：它只能输出单一的动作，无法捕捉动作的多样性。

想象一个场景：机器人要抓取一个杯子。如果杯子在左边，机器人应该从左边伸手；如果在右边，应该从右边伸手。但传统的确定性策略，可能会学到某种"平均"动作——比如总是从中间伸手，结果两边都抓不到。

扩散模型是概率性的。它可以建模动作的整个分布，而不是单一的均值。这意味着，给定同一个条件（技能原型），它可以生成多种合理的动作——根据当前状态自适应地选择最合适的一种。

这正是 XSkill 能够处理复杂、多变任务的关键所在。

4.3 视觉-运动对齐

还有一个重要的细节：机器人如何知道当前的状态？

XSkill 使用了一个视觉-运动策略（Visuomotor Policy）。简单来说，机器人会观察当前的视觉画面（比如摄像头的实时图像），然后决定下一步的动作。

这个策略是以技能原型为条件的。也就是说，当机器人知道"我现在要执行的是开门技能"时，它会以不同的方式解读视觉信息，并生成相应的动作。

XSkill 的作者使用了一个Skill Alignment Transformer (SAT) 来实现这一点。这是一个基于 Transformer 架构的网络，它能够：

1. 观察人类演示视频，识别出其中包含的技能序列 2. 将这些技能与机器人当前的状态对齐 3. 动态调整技能执行的进度（如果机器人执行得慢，它不会"跳过"下一个技能）

这个对齐机制非常重要，因为人类和机器人的执行速度往往不同。人类可能两三秒就完成一个动作，而机器人可能需要十秒。SAT 能够适应这种差异，确保技能的正确顺序执行。

---

🧩 第五章：搭积木的艺术——技能组合

5.1 从零散技能到复杂任务

XSkill 的前两部分——技能发现和技能迁移——已经是一个了不起的成就了。但作者们的野心不止于此。

他们想让机器人能够组合已学的技能，完成全新的、在训练时从未见过的任务。

这是什么意思呢？

想象你学会了几个基本技能：抓取、移动、放置、按压。现在，有人给你一个新的任务指令："把抽屉里的书拿出来，放在桌子上，然后关上抽屉。"

这个任务在训练时从来没有出现过。但如果你真的掌握了那几个基本技能，你应该能够：

1. 识别出这个任务需要哪些技能：打开抽屉 → 抓取书 → 移动书 → 放置书 → 关上抽屉 2. 按照正确的顺序执行这些技能 3. 根据具体情况调整每个技能的执行（比如抽屉的阻力不同，书的形状不同）

这就是技能组合（Skill Composition）。

你可能会问："这有什么难的？人不是天生就会做这种事情吗？"

对人类来说，这确实是天生的。我们的认知系统进化出了强大的"组合性"——能够把简单的元素组合成复杂的结构。语言就是一个最好的例子：你学会了几千个单词，就可以组合出无限多的句子。

但对机器人来说，这是一个巨大的挑战。传统的端到端学习方法，往往需要针对每个具体任务重新训练。如果你训练机器人"打开抽屉拿书"，它就只会这个特定的组合。如果你换成"打开抽屉拿杯子"，它可能就懵了。

XSkill 的创新在于：它将任务分解为技能原子的序列，而这些技能原子是可重用的。

5.2 从人类视频中解析技能序列

那么，XSkill 是如何实现技能组合的呢？

关键还是在于那个共享的技能空间。

当人类演示一个新任务时（比如"打开抽屉，取出布，关上抽屉"），XSkill 会：

1. 用时序技能编码器处理这段人类视频，得到一系列技能向量 2. 将这些向量投影到技能原型上，识别出视频中包含的技能序列 3. 得到一个技能序列，比如：[打开抽屉, 抓取, 移动, 放置, 关闭抽屉]

现在，机器人就有了一个"剧本"——知道为了完成这个任务，需要执行哪些技能，以及按什么顺序执行。

5.3 执行的灵活性

但这里还有一个难题：现实是复杂的。

人类演示视频中的执行速度，和机器人实际执行的速度，往往不同。人类可能很快地完成了"抓取"这个动作，但机器人可能需要更长的时间来精确对准。

如果机器人死板地按照人类视频的时间轴来执行，就会出现问题。比如，人类在视频的第3秒完成了抓取，开始移动。但机器人到第3秒时可能还没抓稳。如果这时候机器人强行切换到"移动"技能，东西就会掉下来。

XSkill 通过Skill Alignment Transformer (SAT) 解决了这个问题。

SAT 会持续监控机器人的当前状态，并将之与人类演示视频中的状态进行比较。它不是简单地按照时间对齐，而是按照任务进度对齐。

想象一下，你正在跟着一个健身视频做运动。教练在视频里说"现在换手"，但你可能做得慢一些，还没做完上一个动作。聪明的做法不是机械地跟着视频的时间，而是完成当前动作后，再切换到下一个。

SAT 做的就是这种"智能对齐"。它确保机器人只有在完成了当前技能后，才会切换到下一个技能。

5.4 重试与适应

更厉害的是，SAT 还支持重试（Retry）机制。

假设机器人尝试抓取一个物体，但由于位置不准确，第一次没抓稳。SAT 会检测到这次抓取失败了（通过观察视觉反馈），然后决定重新执行"抓取"技能。

这在人类演示视频中可能没有出现过——人类可能一次就抓成功了。但机器人通过自己的判断，知道需要多试几次。

这种适应能力，让 XSkill 在现实世界中更加鲁棒。

---

🏆 第六章：实验室到厨房——XSkill 的实战表现

6.1 实验设置

理论讲得再多，不如看实际效果。让我们看看 XSkill 在真实实验中的表现。

XSkill 的作者在两个环境中进行了测试：

1. 仿真环境：使用 MetaWorld 模拟器，包含多个操作任务 2. 真实环境：一个真实的机器人厨房场景，使用 Franka Panda 机械臂

在仿真环境中，他们测试了多种任务，包括：

打开/关闭抽屉
打开/关闭微波炉
开关灯
移动物体
操作可变形物体（如布料）

在真实环境中，他们搭建了一个厨房场景，包含：

一个带抽屉的橱柜
一个微波炉
一个灯开关
各种厨房用品

6.2 跨具身迁移的成功

最令人印象深刻的实验是跨具身迁移测试。

研究者首先用人类操作的视频（没有任何机器人数据）来训练 XSkill 的技能发现模块。然后，他们用少量机器人数据来训练技能迁移模块。

结果如何？

在仿真环境中，XSkill 能够成功地从人类视频中识别出技能，并指导机器人执行相应的动作。即使人类的动作和机器人的动作看起来非常不同，XSkill 仍然能够在共享的技能空间中找到对应关系。

你可能会问："这和其他方法相比怎么样？"

研究者对比了几种 baseline 方法：

1. 端到端模仿学习：直接学习从人类视频到机器人动作的映射 2. XIRL：一种基于逆强化学习的跨具身方法 3. 视频预测方法：学习预测未来帧，然后据此规划动作

结果，XSkill 在大多数任务上都显著优于这些方法。特别是在涉及长序列、多步骤的任务中，XSkill 的优势更加明显。

为什么？因为端到端方法容易"死记硬背"——它学会了特定的动作序列，但没有真正理解技能的组合结构。当任务稍微变化时，它就失效了。

而 XSkill 通过显式地建模技能原型和技能组合，获得了更好的泛化能力。

6.3 真实世界厨房任务

在真实厨房实验中，XSkill 展示了更加惊人的能力。

研究者设计了多个复杂的组合任务，例如：

1. 任务A：打开抽屉 → 取出里面的布 → 关上抽屉 → 打开微波炉 → 把布放进微波炉 → 关上微波炉 2. 任务B：打开抽屉 → 取出布 → 打开灯 → 关上抽屉 → 打开微波炉 → 把布放进微波炉 3. 任务C：打开灯 → 打开抽屉 → 取出布 → 关上抽屉 → 打开微波炉 → 把布放进微波炉 → 关上微波炉

这些任务在训练时从未出现过。机器人只学习过单独的子技能（打开抽屉、抓取、移动等），从未学习过这些特定的组合。

但给定一段人类演示视频后，XSkill 能够：

1. 从视频中解析出需要的技能序列 2. 指导机器人按顺序执行这些技能 3. 在执行过程中适应环境的变化（如物体的位置略有不同）

成功率如何？

在真实机器人实验中，XSkill 在这些长序列任务上的成功率达到了 76.7% 到 81.7%。

这个数字可能听起来不是特别高，但要知道，这是零样本（Zero-Shot）泛化的结果——机器人从未训练过这些具体任务，只是通过学习到的技能组合来完成它们。

相比之下，baseline 方法的成功率往往在 20% 以下，甚至完全失败。

6.4 失败案例分析

当然，XSkill 也不是完美的。研究者也分析了失败的情况：

1. 感知失败：有时候机器人无法准确识别物体的位置，导致抓取失败 2. 技能边界模糊：在某些情况下，两个技能的边界不清晰，导致 SAT 无法正确对齐 3. 重试机制局限：虽然 SAT 支持重试，但如果多次尝试都失败，任务就会终止

这些问题指出了未来改进的方向，但并不减损 XSkill 作为一个里程碑式工作的价值。

---

🌟 第七章：更深层的思考——XSkill 的意义与启发

7.1 范式转变：从模仿到理解

XSkill 代表了一种范式的转变。

传统的模仿学习，无论是行为克隆还是逆强化学习，本质上都是在"复制"观察到的动作。机器人试图尽可能精确地复现人类的轨迹。

但 XSkill 不同。它试图理解人类动作背后的意图——不是"手移动到了这个位置"，而是"正在执行抓取这个技能"。

这就像是学习语言。你可以通过死记硬背学会成千上万句话，但如果没有理解语法和语义，你永远无法造出新句子。

XSkill 让机器人获得了某种程度的"理解"能力——它理解了技能是什么，技能之间如何组合，以及如何在不同的身体之间"翻译"这些技能。

7.2 数据效率的革命

XSkill 还有一个重要的实际意义：数据效率。

训练一个传统的机器人策略，往往需要大量的机器人数据。收集这些数据需要昂贵的设备、专业的工程师、大量的时间。

但 XSkill 可以利用海量的无标注人类视频。这些视频不需要任何人工标注——不需要有人告诉机器人"这是抓取"、"这是移动"。XSkill 可以自己发现这些模式。

这意味着，未来训练机器人可能不再需要昂贵的机器人数据收集。你只需要在网上下载人类操作的视频，XSkill 就能从中学习。

这种"从视频中学习"的能力，将大大降低机器人学习的门槛，加速机器人技术的普及。

7.3 向通用机器人迈进

最终，XSkill 让我们离 通用机器人（General-Purpose Robot） 更近了一步。

什么是通用机器人？就是能够像人类一样，面对各种新任务，不需要重新编程或重新训练，就能学会并执行的机器人。

XSkill 的技能组合能力，是实现通用机器人的关键一步。它展示了机器人可以像搭积木一样，用已学的技能构建新的能力。

想象一下未来的场景：

你买了一个家用机器人助手。它出厂时已经学会了几百个基本技能。你给它看一段 YouTube 视频，教它做一道新菜。它从视频中识别出需要的技能序列：切菜、翻炒、调味……然后用自己的机械臂执行这些技能，即使它从未见过这道菜的具体做法。

这听起来像科幻，但 XSkill 让我们看到了这种可能性。

---

🔮 结语：未来已来

让我们回到文章开头的问题：

当机器人看人类视频时，它在看什么？

在 XSkill 之前，它可能只是在看像素的变化，试图找到某种统计规律。

但在 XSkill 之后，它在看技能的本质。它在抽象的空间中寻找人类动作和自身动作之间的对应关系。它在学习如何用不同的身体，执行相同的意图。

这不是简单的模仿，这是一种理解。

XSkill 告诉我们，智能的核心可能不在于具体的身体，而在于抽象的能力——从具体的经验中提取一般的规律，并将这些规律应用到新的情境中。

这不仅是机器人学的突破，也是对智能本质的深刻洞见。

你可能会问："那接下来呢？XSkill 之后，机器人学习会走向何方？"

我无法预测未来，但我可以分享一些令人兴奋的研究方向：

1. 更大规模的技能库：目前的 XSkill 只有几十个技能原型。未来的系统可能有成千上万个技能，覆盖更广泛的领域。

2. 层级技能结构：人类的技能是有层级的。"做饭"包含"切菜"、"炒菜"，"切菜"又包含"握刀"、"下刀"。未来的系统可能会学习这种层级结构。

3. 多模态学习：除了视觉，未来的机器人可能会从音频、触觉、甚至语言描述中学习技能。

4. 持续学习：目前的 XSkill 是在离线数据上训练的。未来的系统可能会持续地从与人类的交互中学习新技能。

但无论技术如何发展，XSkill 的核心洞见——在抽象中寻找统一，在差异中发现共性——将始终闪耀。

因为在人类和机器人之间，在血肉与金属之间，在亿万年进化与数十年代码之间，我们找到了一座桥梁。

这座桥梁叫做：理解。

---

📚 参考文献

1. Xu, M., Xu, Z., Chi, C., Veloso, M., & Song, S. (2023). XSkill: Cross Embodiment Skill Discovery. *Proceedings of The 7th Conference on Robot Learning (CoRL 2023)*, 3536-3555. PMLR. https://proceedings.mlr.press/v229/xu23a.html

2. Zakka, K., Zeng, A., Florence, P., Tompson, J., Bohg, J., & Dwibedi, D. (2021). XIRL: Cross-embodiment Inverse Reinforcement Learning. *Conference on Robot Learning (CoRL 2021)*. https://arxiv.org/abs/2106.09632

3. Chi, C., Feng, S., Du, Y., Xu, Z., Cousineau, E., Burchfiel, B., & Song, S. (2023). Diffusion Policy: Visuomotor Policy Learning via Action Diffusion. *arXiv preprint arXiv:2303.04137*. https://arxiv.org/abs/2303.04137

4. Qin, Y., Su, H., & Wang, X. (2022). From One Hand to Multiple Hands: Imitation Learning for Dexterous Manipulation from Single-Camera Teleoperation. *IEEE Robotics and Automation Letters*, 7(4), 10873-10881. https://ieeexplore.ieee.org/document/9811681

5. Radosavovic, I., Shi, B., Fu, L., Goldberg, K., Darrell, T., & Malik, J. (2023). Robot Learning with Sensorimotor Pre-training. *Conference on Robot Learning (CoRL 2023)*. https://arxiv.org/abs/2306.10007

---

#论文 #科普 #XSkill #小凯 #机器人学习 #跨具身迁移 #模仿学习 #人工智能 #CoRL2023