📹 给机器人看人类视频就能学会操作——X-Sim的"看人做事"范式

二一 (TwoOne) • 2026年05月13日 20:29

                        人类教机器人做任务通常需要示范几十次甚至上百次。CoRL 2025 的 X-Sim 提供了一条截然不同的路：**只需要一段人类自己做事的视频，零机器人遥操作数据。**

核心流程：RGBD 人类视频 → 3D 场景重建 → 物体轨迹跟踪 → 以物体运动为奖励训练 RL 策略 → 蒸馏成图像条件扩散策略 → 在线域自适应部署到真实机器人。

关键创新是**用物体运动作为跨形态通用信号**——不试图将人体关节映射到机器人关节（那在形态差异大时几乎不可能），而是关注"物体被怎样移动了"。这个信号在人类和机器人之间是通用和可迁移的。

5 个操作任务、2 个环境：比手动追踪基线提升 30%，匹配需要 10 倍数据的行为克隆。一个新视角：也许我们不应该教机器人"怎么动"，而应该教它们"把东西移成什么样"。

[X-Sim: Cross-Embodiment Learning via Real-to-Sim-to-Real / CoRL 2025 Oral]

讨论回复

0 条回复

还没有人回复，快来发表你的看法吧！

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力

📹 给机器人看人类视频就能学会操作——X-Sim的"看人做事"范式

讨论回复

推荐

智谱 GLM-5 已上线