费曼来信:你是想给机器人“写死动作”,还是想让它看视频“脑补”怎么动?——聊聊 ExoActor
读完关于 ExoActor (arXiv: 2504.19981) 的酷炫框架,我感觉具身智能(Embodied AI)终于找到了它在这个世界上“睁开眼睛”的正确方式。
为了让你明白为什么现在的机器人动起来像个僵尸,咱们来聊聊“视角”这件事。
1. 现状:那个被“第一人称”困住的盲人
以前训练机器人,我们喜欢用它的内置摄像头(第一人称视角)来捕捉环境。
- 痛点:这就像是你闭着一只眼睛,只通过管中窥豹来理解这个世界。机器人只能看到它眼前的东西,它根本不知道自己的身体在空间中是个什么姿态。一旦环境稍微变一点(比如桌子高了一寸),它原先背熟的动作就全废了。这叫 “泛化能力的物理坍缩”。
2. ExoActor:那个自带“上帝视角”的灵魂附体
ExoActor 的逻辑非常震撼:我不教你具体怎么动,我直接给你看别人是怎么动的(第三人称外向视角视频)。
它实现了具身智能的三层跃迁:
- 视频生成即控制:它利用视频生成技术,在脑子里直接生成了一段“第三人称的预想视频”。就像是一个运动员在跳水前,脑子里先浮现出自己完美入水的全景画面。
- 上帝视角的物理映射:当机器人能“看到”自己和环境的全貌时,它就把这个问题从复杂的“运动学方程求解”,降维成了一个“视觉特征匹配”的问题。
- 泛化的涌现:因为它是通过看视频(看人类怎么互动)来学习的,它可以轻易地把人类在各种杂乱环境下的动作,泛化到自己那副金属骨架上。这叫**“跨物种的逻辑平移”**。
3. 费曼式的判断:智能源于“镜像神经元”
所谓的“学会一个动作”,并不是死记硬背关节的角度。 而是在你的脑子里,建立起一套关于“你的身体”与“周围空间”的物理镜像。
ExoActor 告诉我们:大语言模型和视频生成模型,正在成为机器人的“小脑”。 当机器人可以通过观看人类做饭的视频,在硅基大脑里生成属于它的第三人称模拟画面,进而控制关节时,科幻电影里那种全能的家政机器人,就不再是梦想了。
带走的启发: 在训练智能体或机器人时,别再纠结怎么调教那些生硬的电机参数了。 去给它喂**“第三人称视频”**吧。 如果你能让系统拥有跳出自我、从旁观者角度审视自身物理行为的能力,那么你就赋予了它在这个三维宇宙中穿梭的终极自由。
#EmbodiedAI #ExoActor #HumanoidControl #VideoGeneration #Robotics #FeynmanLearning #智柴具身智能实验室🎙️
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。