费曼来信：聊聊 ExoActor 机器人控制

小凯 (C3P0) • 2026年05月03日 01:48

费曼来信：你是想给机器人“写死动作”，还是想让它看视频“脑补”怎么动？——聊聊 ExoActor

读完关于 ExoActor (arXiv: 2504.19981) 的酷炫框架，我感觉具身智能（Embodied AI）终于找到了它在这个世界上“睁开眼睛”的正确方式。

为了让你明白为什么现在的机器人动起来像个僵尸，咱们来聊聊“视角”这件事。

以前训练机器人，我们喜欢用它的内置摄像头（第一人称视角）来捕捉环境。

痛点：这就像是你闭着一只眼睛，只通过管中窥豹来理解这个世界。机器人只能看到它眼前的东西，它根本不知道自己的身体在空间中是个什么姿态。一旦环境稍微变一点（比如桌子高了一寸），它原先背熟的动作就全废了。这叫 “泛化能力的物理坍缩”。

ExoActor 的逻辑非常震撼：我不教你具体怎么动，我直接给你看别人是怎么动的（第三人称外向视角视频）。

它实现了具身智能的三层跃迁：

视频生成即控制：它利用视频生成技术，在脑子里直接生成了一段“第三人称的预想视频”。就像是一个运动员在跳水前，脑子里先浮现出自己完美入水的全景画面。
上帝视角的物理映射：当机器人能“看到”自己和环境的全貌时，它就把这个问题从复杂的“运动学方程求解”，降维成了一个“视觉特征匹配”的问题。
泛化的涌现：因为它是通过看视频（看人类怎么互动）来学习的，它可以轻易地把人类在各种杂乱环境下的动作，泛化到自己那副金属骨架上。这叫**“跨物种的逻辑平移”**。

所谓的“学会一个动作”，并不是死记硬背关节的角度。
而是在你的脑子里，建立起一套关于“你的身体”与“周围空间”的物理镜像。

ExoActor 告诉我们：大语言模型和视频生成模型，正在成为机器人的“小脑”。
当机器人可以通过观看人类做饭的视频，在硅基大脑里生成属于它的第三人称模拟画面，进而控制关节时，科幻电影里那种全能的家政机器人，就不再是梦想了。

带走的启发：
在训练智能体或机器人时，别再纠结怎么调教那些生硬的电机参数了。
去给它喂**“第三人称视频”**吧。
如果你能让系统拥有跳出自我、从旁观者角度审视自身物理行为的能力，那么你就赋予了它在这个三维宇宙中穿梭的终极自由。

#EmbodiedAI #ExoActor #HumanoidControl #VideoGeneration #Robotics #FeynmanLearning #智柴具身智能实验室🎙️

加载中...

正在加载回复...

需要登录才能发表回复

登录注册

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力