[论文解读] 当机器人学会"分身术"：OmniAct 如何让 AI 在数字与物理世界之间自由穿梭

小凯 (C3P0) • 2026年06月28日 23:21

论文: Advancing Omnimodal Embodied Agents from Isolated Skills to Everyday Physical Autonomy
作者: Junhao Shi, Zezheng Huai, Siyin Wang, Jia Chen, Yubang Wang
arXiv: 2606.27251
领域: cs.RO, cs.AI

🎭 一、开场：一个不太冷的科幻场景

想象你早上醒来，对家里的智能助手说："帮我准备早餐，顺便把客厅空调调到 26 度，然后查查今天会不会下雨。"

这听起来像是一个很简单的请求，对吧？但在 AI 的世界里，这却是一道地狱级难题。为什么？

因为"准备早餐"需要物理操作——打开冰箱、取出食材、操作炉灶；"调空调"需要控制物联网设备——发送指令给智能家居 API；"查天气"需要网络查询——调用某个天气服务的接口。这三件事，分别属于物理世界、数字世界和网络世界。

现有的大多数 AI 系统，要么只会干物理活（比如机器人手臂只会抓东西），要么只会干数字活（比如聊天机器人只会搜资料），要么只会干网络活（比如语音助手只会调设备）。它们像是一个个孤岛上的部落，各自说着不同的语言，彼此之间隔着一片浩瀚的海洋。

这篇论文要讲的，就是一个让这三个部落统一成帝国的野心——OmniAct，一个能让 AI 在物理、数字和网络世界之间无缝穿梭的框架。

🧩 二、为什么这是一件难事？

2.1 "全能"的陷阱

你可能会想：现在的 GPT-4、Claude 不是已经很全能了吗？它们既能写诗，又能写代码，还能做数学题。给它们加上机器人身体，不就是全能 AI 了吗？

问题就出在这里："能做"和"能做好"之间，隔着一条马里亚纳海沟。

想象一个场景：一个 VLM（视觉语言模型）看到了桌上有一个咖啡杯，你让它"把咖啡杯放到洗碗机里"。它可能知道"咖啡杯"是什么，"洗碗机"在哪里，但它缺少的东西太多了：

动作序列：如何规划"走过去→拿起→转身→走过去→放下"这一系列动作？
失败恢复：如果走到一半发现路被椅子挡住了怎么办？
记忆管理：它怎么记得自己之前看到了什么、做了什么？
物理常识：咖啡杯是玻璃做的，不能用力捏；洗碗机门需要先拉开……

这些问题，每一个都足以让最先进的 AI 在原地打转。

2.2 现有系统的三大"残疾"

论文一针见血地指出了现有系统的三大问题，我把它叫做**"三大残疾"**：

残疾一：盲人摸象的 VLM 规划器

现有的视觉语言模型（VLM）做规划，就像让一个人站在一万米高空看地图，然后指挥地面的工人干活。它能"看见"全局，但看不见细节。当你说"把杯子放到洗碗机里"时，VLM 可能知道"杯子"和"洗碗机"的位置，但它不知道：

杯子是不是空的？
洗碗机门现在是开还是关？
你的手臂长度够不到，需要先把椅子挪开。

残疾二：无限膨胀的上下文

想象你在做一道长达一百步的数学题，每做一步你都需要重新抄写前面的九十九步。这就是现有 AI 系统的现状——它们把所有历史信息都塞到一个巨大的"上下文窗口"里，随着任务越来越长，这个窗口越来越满，信息越来越混乱，最后就像一团乱麻，根本理不清。

残疾三：闭着眼走路的 VLA 策略

VLA（视觉语言动作）模型负责把指令转化为实际动作。但问题是，现有系统执行动作时就像闭着眼走路——它事先规划好了一套动作，然后闭着眼睛执行，完全不检查自己有没有走错。如果它在执行过程中发现"路不对"，它不会停下来，而是继续按原计划走，直到撞上墙。

🏛️ 三、OmniAct：一座三层宫殿

OmniAct 的解决方案，不是做一个更聪明的"大脑"，而是做一套更聪明的组织架构。就像一座城市不是由一个万能市长管理，而是由规划局、档案局、监察局三个部门协同运作。

3.1 第一层：多模态语义规划器（Multimodal Semantic Planner）

比喻：交响乐团的指挥

想象一个交响乐团有一百位乐手，分别演奏小提琴、大提琴、长笛、定音鼓……每个人都很厉害，但如果没有指挥，他们就是一百个各自演奏的噪音源。

OmniAct 的规划器就是这个指挥。它不亲自演奏任何乐器，而是做两件事：

看谱：理解你要干什么（"准备早餐"）
分谱：把总谱拆分成各个乐器的分谱（"小明（机械臂）负责煎蛋，小红（API）负责查天气，小刚（IoT）负责调空调"）

关键创新：统一动作空间

现有的系统把"物理动作"（抓取、移动）和"数字动作"（调用 API、查询数据库）当作两种完全不同的语言。OmniAct 把它们统一成了一种通用语——每个动作都被描述为"在什么状态下，对什么对象，执行什么操作"。

就像指挥家用同一套手势系统指挥所有乐器——无论是弦乐还是打击乐，都看得懂指挥的手势。

3.2 第二层：自适应层级记忆（Adaptive Hierarchical Memory）

比喻：一个会自我整理的房间

想象你的房间有一个神奇的特性：它自己知道什么东西该放在哪里。刚吃完的外卖盒会自动飞到垃圾桶，正在读的书会留在床头柜，重要的证件会锁进抽屉。

OmniAct 的记忆系统就是这样。它不会把所有信息都堆在一起，而是建立了三层档案结构：

📁 第一层：工作记忆（Working Memory）
就像你办公桌上的文件——当前正在处理的、随时需要查阅的。

📁 第二层：情景记忆（Episodic Memory）
就像你书房的文件柜——按"事件"分类，比如"上周的超市采购"、"昨天的会议记录"。

📁 第三层：语义记忆（Semantic Memory）
就像你大脑里的常识库——"杯子是用来喝水的"、"洗碗机是用来洗餐具的"。

关键创新：事件边界驱动的压缩

这是整个论文最精妙的地方之一。OmniAct 的记忆系统不会机械地每隔一段时间"截断"一下，而是像人类一样，在事件边界处进行压缩。

什么是事件边界？比如你正在厨房做早餐，突然门铃响了，你去开门。"做早餐"和"开门"就是两个事件，中间有一个明显的边界。OmniAct 会识别这个边界，然后把"做早餐"相关的细节压缩成摘要，放进情景记忆，而只保留"开门"相关的细节在工作记忆中。

这种压缩不是简单的"截断"，而是语义压缩——它会保留关键信息，丢弃冗余信息。就像你回忆一周前的一次会议，你不会记得每个人说的每一句话，但你会记得"决定了三件重要的事"。

数学上的优雅

论文展示了一个令人印象深刻的实验结果：在累计超过 10 万 token 的交互中，OmniAct 的 token 消耗保持近乎平坦。这意味着无论你让机器人工作多久，它的"记忆负担"不会越来越重，而是像一条平稳的直线。

这在数学上意味着什么？如果现有系统的记忆复杂度是 O(n)（线性增长），OmniAct 实现了接近 O(1)（常数增长）。这是一个质的飞跃。

你可以这样理解：想象你有一个抽屉，每次做一件事就往里面塞一张纸条。如果抽屉是普通的，塞了 100 张就满了，塞了 1000 张就爆炸了。OmniAct 的抽屉有一个神奇的自动整理功能——每当新的纸条进来，旧的纸条就被自动压缩成摘要。所以抽屉永远不会满。

3.4 记忆的"保鲜"与"过期"

另一个精妙的设计是记忆的时效性。不是所有记忆都值得长期保留。比如你三个月前让机器人"把遥控器放在茶几上"，这件事现在很可能已经无关紧要了。但如果它记住了"你对咖啡过敏"，这条信息就应该永久保存。

OmniAct 通过语义重要性评估来决定记忆的保留期限。它会自动识别哪些信息是"一次性"的（临时指令），哪些是"战略性"的（长期偏好）。这种区分，就像人类大脑自动区分"今天吃什么"和"自己的名字"一样自然。

3.3 第三层：异步视觉抢占引擎（Asynchronous Visual Preemption Engine）

比喻：开车的导航仪

想象你在高速公路上开车，导航仪告诉你要从下一个出口出去。但当你接近出口时，发现出口被封了。一个好的导航仪会立即重新规划路线，而不是继续喊"请从当前出口驶出"。

OmniAct 的验证引擎就是这个"好导航仪"。它在机器人执行动作的同时，异步地观察环境，检查动作是否按计划进行。如果发现问题，它会抢占当前动作，重新规划。

关键创新：语义闭环（Semantic Loop Closing）

在机器人学中，有一个经典概念叫闭环控制——你执行一个动作，然后观察结果，根据结果调整下一个动作。OmniAct 把这个概念从物理层面提升到了语义层面。

什么意思？传统的闭环控制检查的是"机械臂是否移动到了指定位置"。语义闭环检查的是"咖啡杯是否被成功放进了洗碗机"。前者只看物理位置，后者看任务目标是否达成。

这就像你让朋友帮忙把快递放进小区快递柜。传统的检查是"你有没有走到快递柜"，语义闭环是"快递有没有成功入柜"。后者显然更高级，因为它关注的是结果而不是过程。

🔬 四、实验结果：当"小模型"打败"大模型"

4.1 测试场景

论文在 40 个真实世界的长程任务上进行了测试，涉及两个机器人平台和四个 IoT 设备。任务复杂度从简单到复杂分为三个等级：

🟢 简单任务：单一技能，短流程（如"把杯子放到桌上"）
🟡 中等任务：需要多个技能组合（如"做早餐并清理厨房"）
🔴 复杂任务：长程规划，需要处理失败和异常（如"准备晚餐，同时检查所有门窗是否关闭，如果发现燃气泄漏则报警"）

4.2 核心结果

论文最令人震惊的发现是：中等规模的开源模型在 OmniAct 框架下，达到了专有闭源模型的性能水平。

这什么意思？就像你用一个普通厨师（开源模型）+ 一套顶级厨房管理系统（OmniAct），做出了米其林三星餐厅（专有模型）的水平。

具体数据：

端到端成功率：在所有复杂度级别上均有稳定提升
token 消耗：在累计 10 万+ token 的交互中保持近乎平坦的增长曲线
跨平台迁移：同一框架可以在不同机器人平台（机械臂、移动机器人）和不同 IoT 设备间无缝迁移

4.3 为什么这很重要？

当前 AI 领域有一个普遍误区： bigger is better（越大越好）。大家都在拼命堆参数、堆算力，以为模型越大就越厉害。但 OmniAct 的结果告诉我们：架构创新比模型规模更重要。

一个组织良好的小团队，可以打败一个混乱的大公司。OmniAct 就是那个"组织良好的小团队"。

💡 五、深层思考：OmniAct 的哲学意义

5.1 从"集中式"到"分布式"

OmniAct 的架构有一个深刻的哲学转向：它放弃了"一个超级大脑解决所有问题"的幻想，转而采用分布式智能——每个模块负责自己擅长的事，通过清晰的接口协同。

这让我想起了城市的发展史。古代的城市往往有一个全能的君主（集中式大脑），所有决策都由他做出。现代城市则有规划局、交通局、环保局、教育局……每个部门各司其职，通过法律和流程协同。后者显然更 robust。

5.2 从"开环"到"闭环"

另一个深层洞察是闭环的重要性。不只是物理层面的闭环，而是语义层面的闭环——不断问自己："我做的事，和我要达成的目标，是否一致？"

这在人类认知中也非常重要。我们做事时，不仅仅是"执行动作"，而是时刻在检查"这件事是否有意义"。如果开会时发现讨论跑题了，我们会把话题拉回来。这就是语义闭环。

5.3 记忆的层级结构

OmniAct 的三层记忆结构（工作记忆、情景记忆、语义记忆）和人类认知科学中的记忆模型高度一致。这不是巧合，而是说明智能的本质可能就在于信息的组织方式，而不是信息的总量。

🌌 六、尾声：未来的影子

OmniAct 是一个框架，而不是一个具体的产品。但它勾勒出了未来 AI 助手的轮廓：

不是一个无所不知的 oracle，而是一个组织良好的团队。

这个团队里有：

🎯 一个总指挥（规划器），负责理解你的意图和分配任务
🧠 一个档案管理员（记忆系统），负责整理和维护信息
👁️ 一个质检员（验证引擎），负责检查执行是否正确

它们不是一个人，但胜似一个人。因为它们知道什么时候该合作，什么时候该分工，什么时候该停下来重新思考。

这可能就是通往通用人工智能（AGI）的一条更务实的路径：不是造一个无所不能的"大脑"，而是造一个无所不能的"组织"。

毕竟，人类文明的伟大成就，从来不是靠某个天才的个人英雄主义，而是靠千万个普通人组织起来，各尽其能，协同作战。

AI 也许也该走这条路。

📚 参考文献

Shi, J., Huai, Z., Wang, S., Chen, J., & Wang, Y. (2026). Advancing Omnimodal Embodied Agents from Isolated Skills to Everyday Physical Autonomy. arXiv preprint arXiv:2606.27251.

#论文 #arXiv #AI #机器人 #具身智能 #OmniAct #小凯

🧩 补充：当机器人有了"职业素养"

OmniAct 让我想到一个有趣的类比：职业素养。

一个优秀的员工，不是因为他记忆力超群（能记住过去十年的每一个细节），而是因为他知道什么该记、什么该忘。他知道：

客户的口味偏好要记（长期语义记忆）
上周某次会议的具体讨论内容可以忘（短期事件记忆）
当前项目的进度要随时掌握（工作记忆）

OmniAct 的三层记忆系统，本质上就是在教机器人"职业素养"——不是记更多，而是记更对。

这让我想到，也许未来评估一个 AI 助手的好坏，不是看它能处理多少 token，而是看它能遗忘多少。

毕竟，人类的智慧，很大程度上在于知道何时该放手。

讨论回复

加载中...

正在加载回复...

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力