🎭 双簧记:AHA-WAM如何用异步双脑让机器人学会"边想边做"
"思想的真正价值不在于它自身,而在于它唤起的行动。" —— 奥利弗·温德尔·霍姆斯
🎪 开篇:单口相声与双簧的哲学
想象一个场景:你走进一个繁忙的餐厅,服务员正在处理一个复杂的点单。他一边听着你说话("我要一份牛排,三分熟,配红酒酱,不要洋葱"),一边在脑子里规划路线——先去厨房下单,然后回来取酒水,途中还要给3号桌续水。他的眼睛在扫描全场,手在写单子,脚已经在往厨房移动。
这就是异步智能——多个任务并行,而不是一件做完再做下一件。
现在把这位服务员换成一个机器人。传统的机器人控制系统,就像一个单口相声演员——一次只能说一段,一个包袱抖完再抖下一个。它的"思考流程"是这样的:
- 看到环境(感知)
- 决定动作(规划)
- 执行动作(执行)
- 回到步骤1
这在简单的任务里没问题。比如工厂流水线上,机器人只需要重复"抓取→移动→放置"。但如果任务稍微复杂一点——比如"把客厅收拾干净,但注意不要碰倒花瓶,同时留意门铃如果有人来要开门"——这种串行的方式就会崩溃。
为什么?因为感知和动作的频率不匹配。摄像头可能每秒跑30帧(感知很快),但机械臂运动可能每秒只有5-10个动作(执行很慢)。如果机器人必须"完全感知→完全规划→完全执行"之后才开始下一轮感知,那么:
- 在等待机械臂完成动作时,摄像头已经在看新的画面了,但这些信息被浪费了
- 如果有突发情况(比如有人走过),机器人无法及时反应,因为它"正在执行上一步的计划"
这就像你在开车时,每隔5秒才看一次路。其他时候,你的头埋在方向盘上,专注于"转动方向盘"这个动作本身。太荒谬了,对吧?
今天要讲的论文——AHA-WAM: Asynchronous Horizon-Adaptive World-Action Modeling with Observation-Guided Context Routing——就是来解决这个问题的。它让机器人学会**"双簧"**——两个大脑同时工作:一个专注于眼前的动作,一个展望未来的规划。它们不抢戏,不打架,而是默契配合。
🧠 第一部分:机器人的"时间困境"——为什么串行不行?
1.1 频率错配:感知快,动作慢
要理解AHA-WAM的革新,我们先理解当前机器人的痛点。
现代机器人系统通常有三个层次:
感知层(Perception):摄像头、激光雷达、触觉传感器等。运行频率很高——摄像头通常30-60Hz(每秒30-60帧),激光雷达10-20Hz。
规划层(Planning):大脑,决定做什么。运行频率中等——通常5-10Hz,因为复杂的神经网络推理需要时间。
执行层(Execution):机械臂、轮子、夹爪等。运行频率最低——机械臂的运动可能只有1-5Hz,因为一个动作需要几百毫秒完成。
问题在于:这三层是串行的。
传统流程:
感知(30Hz) → 等待 → 规划(5Hz) → 等待 → 执行(2Hz) → 回到感知
整个系统的频率被最慢的一层(执行)拖累了。感知层产生的信息,大量被丢弃,因为大脑来不及处理。规划层产生的指令,执行层来不及完成,新指令就覆盖了旧指令。
这就像一个乐队,鼓手每秒打30下,吉他手每秒弹5下,贝斯手每秒拨2下。如果指挥说"所有人必须等我数完123再同时开始,然后等最慢的人结束才能进入下一段",整个音乐会变成灾难。
1.2 动作频率的残酷现实
论文作者用一个具体的例子说明了这个问题:
在RoboTwin仿真环境中,机器人需要完成一个"组装积木"任务。任务包含多个步骤:识别积木→抓取→移动→对齐→插入。每个步骤需要不同的动作时长。
- 抓取动作:快速,100ms
- 移动动作:中等,300ms
- 精细对齐:慢速,800ms(因为需要精确控制)
如果系统以固定频率(比如每200ms做一次决策),那么:
- 抓取动作完成后,有100ms的"空窗期"——系统还在等下一个决策周期
- 精细对齐期间,动作还没完成,新的决策就来了——干扰了当前的精确运动
这导致机器人要么动作断断续续(不连贯),要么被后续决策干扰(不准确)。
1.3 多步规划的瓶颈
更复杂的问题是多步规划。很多任务需要"看几步棋"。比如:
"把钥匙从桌上拿起来,走到门口,插进锁孔,转动。"
传统方法需要一次性规划完这4步,然后串行执行。但环境在变化——可能在拿钥匙的时候,有人挡住了去门口的路。如果机器人还在执行"走到门口"的指令,它就会撞上那个人。
理想情况下,机器人应该:
- 在拿钥匙的时候,就开始"看下一步"(门口是否通畅?)
- 在移动的时候,持续感知环境(有人走过?有障碍?)
- 根据最新感知,动态调整剩余计划
但这要求感知和规划是异步的——规划不用等感知完成,感知也不用等规划完成。它们像两条独立的时间线,偶尔交汇(当规划需要用到最新感知时)。
🎭 第二部分:AHA-WAM的"双簧"架构——世界模型与动作模型的异步双人舞
2.1 核心设计:两个大脑,两套节奏
AHA-WAM(全称Asynchronous Horizon-Adaptive World-Action Modeling)的核心创新,可以用一句话概括:
用两个并行的Transformer(DiT)模型——一个预测世界(World Model),一个预测动作(Action Model)——让它们以不同的频率运行,但通过一种巧妙的"观察引导路由"机制共享信息。
让我拆开讲。
🤖 世界模型(World Model):前瞻的预言家
世界模型负责"理解环境"和"预测未来"。它看的是观察序列(Observation Sequence)——摄像头画面、传感器读数、语言指令等。
世界模型的工作:
- 接收当前和过去的观察
- 理解场景("这是一个厨房,桌上有一个杯子")
- 预测未来观察("如果我向前移动,我会看到冰箱")
- 为动作模型提供"上下文"——也就是对当前状态的深层理解
世界模型不需要每一步都运行。它的任务相对"慢"——理解场景、预测未来需要整合大量信息,不需要每秒都做。论文中,世界模型每N步观察才运行一次(N是可调整的)。
🦾 动作模型(Action Model):当下的执行者
动作模型负责"决定做什么动作"。它看的是动作序列(Action Sequence)——机械臂的关节角度、轮子速度、夹爪开合等。
动作模型的工作:
- 接收当前的状态(包括世界模型提供的上下文)
- 决定下一个动作("夹爪闭合,手臂前伸")
- 可以高频运行——因为动作决策通常比世界理解简单
动作模型需要高频运行,因为:
- 机械臂的运动需要精细控制,需要频繁调整
- 突发情况需要快速反应("杯子要掉了!抓紧!")
🔄 异步运行:各跑各的,但共享信息
传统系统是串行的:世界模型必须等动作模型完成,动作模型必须等世界模型输出。
AHA-WAM是并行的:
- 世界模型每隔几步运行一次,生成一个"世界状态表示"(上下文)
- 动作模型每一步都运行,但不需要等世界模型
- 当世界模型完成时,它把最新的上下文"推送"给动作模型
- 动作模型随时可以使用最新的上下文(如果准备好了)或继续使用旧的上下文(如果新的还没来)
这就像餐厅里的双簧表演:
- 前台(动作模型)一直在接待顾客、下单、传菜——高频、忙碌
- 后厨(世界模型)每隔一段时间汇报一次"目前食材还剩多少、接下来半小时的订单预测"——低频、宏观
- 前台不需要等后厨汇报才工作,但后厨的汇报会让前台做得更好("哦,牛肉快没了,我得告诉顾客可能要等久一点")
2.2 观察引导上下文路由(Observation-Guided Context Routing)——双簧的默契
但两个独立的模型,如何确保它们"说的是同一件事"?
这是AHA-WAM最精妙的设计:观察引导上下文路由(Observation-Guided Context Routing,简称OGCR)。
想象两个翻译在同一个会议上,一个翻译英语,一个翻译法语。如果他们各自为政,可能会产生完全不同的理解。但如果他们有一个共享的"笔记板",记录关键信息(谁在说话、讨论什么主题),他们的翻译就会保持一致。
OGCR就是这个"笔记板",但它更聪明——它是动态的、选择性的。
具体机制:
-
世界模型每次运行时,会产生大量的内部表示(类似于Transformer的层间激活)。这些表示编码了"场景的理解"——物体的位置、关系、物理状态等。
-
但不是所有表示都有用。动作模型不需要知道"那个杯子是陶瓷的、釉色是青瓷的"——它只需要知道"杯子在左边,离手30厘米"。
-
OGCR是一个轻量级的路由器网络,它看两样东西:
- 当前观察(动作模型这一步看到什么)
- 世界模型的所有内部表示
然后它决定:世界模型的哪些部分,与当前动作最相关?
-
路由器输出一个选择掩码(Selection Mask)——有点像注意力机制,但目的是"选择"而不是"加权平均"。它告诉动作模型:"用世界模型的第3、7、12层表示,其他的忽略。"
-
动作模型把选中的世界模型表示,作为额外的上下文,注入自己的决策过程。
这有几个好处:
- 信息筛选:动作模型只接收相关的信息,避免被无关信息淹没("不要告诉我杯子的颜色,告诉我它的位置")
- 动态适应:不同的动作需要不同的上下文。抓取动作需要物体位置信息;移动动作需要障碍物信息;语言交互需要语义信息。OGCR自动选择。
- 异步兼容:因为OGCR是"选择"而不是"实时融合",即使世界模型的输出有延迟,动作模型也能用上一次的路由结果继续工作,直到新的上下文到来。
2.3 双扩散Transformer(Dual DiT)——同根生的两个大脑
AHA-WAM的两个模型,都基于**Diffusion Transformer(DiT)**架构。DiT是最近视频和图像生成领域的热门架构——把扩散模型(Denoising Diffusion)和Transformer结合起来。
为什么选择DiT?
-
生成能力强:DiT擅长建模复杂分布。动作不是简单的标量,而是高维的、有时间依赖的序列。DiT可以生成合理的动作轨迹。
-
条件灵活:DiT可以很容易地注入条件(如观察、语言指令)。AHA-WAM利用这一点,把世界模型的上下文作为条件注入动作模型。
-
可扩展性:DiT的注意力机制天然适合处理长序列。机器人任务通常需要长程依赖("先拿钥匙,再开门"),DiT的注意力能捕捉这种依赖。
AHA-WAM的两个DiT共享一部分初始编码层——就像两个大脑共享一部分视觉皮层。然后分叉:
- 世界DiT继续深化,学习复杂的场景理解
- 动作DiT专注于动作序列的生成,但使用OGCR引入世界DiT的上下文
这种"共享+分叉"的设计,既保证了两者的信息兼容(因为共享了底层表示),又保留了各自的专长(因为上层独立)。
2.4 滚动键值记忆(Rolling Key-Value Memory)——时间的河流
AHA-WAM还需要处理长序列。机器人的任务可能持续几十步、几百步,甚至几千步。
Transformer的注意力机制有一个问题:序列越长,计算量越大(二次方增长)。如果机器人运行1000步,Transformer的注意力矩阵会是1000×1000,内存和计算都爆炸。
AHA-WAM的解决方案是滚动键值记忆(Rolling Key-Value Memory)。
想象你正在读一本1000页的书。你不需要同时记住所有1000页才能理解当前这一页。你只需要记住最近几十页的关键内容,以及这本书的"大纲"(章节主题)。
滚动KV记忆就是类似的机制:
- 维护一个固定大小的KV缓存,只保留最近的N步的键值对
- 更早期的信息,被压缩成一个摘要表示(比如用平均池化或轻量网络)
- 当缓存满了,最老的信息被丢弃,但摘要仍然保留
这样,注意力机制永远只看最近的N步(效率高),同时通过摘要保留长期信息(不遗忘)。
论文中,N被设置为几十步到几百步,取决于任务复杂度。对于简单任务,短记忆就够了;对于复杂任务,长记忆更好。AHA-WAM可以自适应地调整这个长度。
🏎️ 第三部分:自适应时域(Horizon-Adaptive)——该快时快,该慢时慢
3.1 为什么固定频率是错的?
AHA-WAM的名字里有一个关键词:Horizon-Adaptive(时域自适应)。
什么是"时域(Horizon)"?在机器人学中,它指的是"预测或规划的未来步数"。比如:
- 短时域(Short Horizon):只看下一步("下一帧该做什么动作")
- 长时域(Long Horizon):看未来十步、百步("接下来10秒我该做什么")
固定频率的系统(比如每200ms决策一次)有一个问题:它时域是固定的。不管任务复杂度如何,它都只看固定步数。
但任务复杂度是变化的!
- 抓取杯子:简单,短视域就够了。只需要看"手在哪、杯子在哪、怎么抓"。
- 规划路线到厨房:复杂,需要长视域。需要看"走廊、门、障碍物、目标位置"。
- 与人对话:中等,需要中等视域。需要理解语言上下文,但不需要看物理环境太远。
固定视域要么太短(复杂任务做不好),要么太长(简单任务浪费计算)。
3.2 AHA-WAM的自适应机制:动态调整时域
AHA-WAM让每个模型自己决定看多远。
具体来说,每个模型有一个视域参数H,可以动态调整:
- 感知复杂度高(环境变化快、信息量大)→ 需要更多注意力在短视域,但频繁更新
- 任务复杂度高(需要多步规划)→ 需要长视域,但可以低频更新
- 动作精度要求高(精细操作)→ 短视域、高频动作模型
- 环境稳定(没什么变化)→ 长视域、低频世界模型
OGCR在路由时,也会考虑视域:
- 短视域时,主要路由最近几步的世界表示
- 长视域时,路由更多历史信息,甚至使用摘要记忆
这种自适应机制让AHA-WAM在简单任务上快速(不浪费计算),在复杂任务上深入(不遗漏关键信息)。
🏆 第四部分:实验结果——92%成功率与24Hz实时控制
4.1 RoboTwin仿真环境:复杂任务的大考
论文在RoboTwin上做了大量测试。RoboTwin是一个高保真的机器人仿真环境,包含多种操作任务:
- 抓取与放置:从桌上抓取物体,放到指定位置
- 工具使用:用锤子敲钉子、用螺丝刀拧螺丝
- 组装任务:把多个零件组装成完整结构
- 导航与操作结合:在房间里移动,同时操作物体
这些任务需要:
- 长程规划(多步操作)
- 精细控制(抓取、对齐)
- 动态反应(环境变化、物体掉落)
- 语言理解(根据指令调整行为)
4.2 核心数字:成功率、效率、泛化
| 指标 | 传统方法 | AHA-WAM | 提升 |
|---|---|---|---|
| RoboTwin任务成功率 | 约70% | 92.80% | +22.8% |
| 真实机器人任务成功率 | 约50% | 78.3% | +28.3% |
| 闭环控制频率 | 约5Hz | 24.17Hz | 4.8倍 |
| 推理速度 | 基准 | 4.59倍 | 4.59倍 |
92.80%的仿真成功率:这意味着在100个复杂任务中,AHA-WAM能成功完成92个。传统方法大约只能完成70个。这个差距不是量的差异,而是质的跨越——从"经常失败"到"基本可靠"。
78.3%的真实任务成功率:在真实的机械臂上测试,成功率仍然很高。这很重要,因为仿真到真实(Sim-to-Real)的迁移通常很困难——仿真里学到的东西,真实环境往往失效。AHA-WAM的异步设计和高频控制能力,让它在真实环境中也能保持鲁棒。
24.17Hz闭环控制:这意味着机器人每秒能调整24次动作。人类快速反应的速度大约也是20-30Hz(比如接住掉落的杯子)。AHA-WAM达到了人类级别的反应速度。传统方法通常只有5-10Hz,机器人看起来"迟钝"、"卡顿"。AHA-WAM的机器人动作流畅、自然,甚至有点"优雅"。
4.59倍推理速度:生成动作的速度提升了近5倍。这是因为:
- 动作模型不需要等世界模型
- OGCR只选择相关的上下文,减少了计算量
- 滚动KV记忆降低了长序列的计算复杂度
4.3 消融实验:每个组件的贡献
论文做了详细的消融实验,验证每个设计的价值:
1. 异步 vs 同步:
- 同步版本(世界模型和动作模型必须互相等待):成功率下降约15%
- 反应时间增加约3倍
- 结论:异步是核心优势,不是可有可无的优化
2. OGCR vs 简单上下文拼接:
- 简单拼接(把世界模型的所有表示直接给动作模型):成功率下降约8%
- 计算量增加约2倍(因为动作模型要处理大量无关信息)
- 结论:选择性路由不仅提升性能,还提升效率
3. 自适应时域 vs 固定时域:
- 固定短视域:简单任务好,复杂任务失败率增加25%
- 固定长视域:复杂任务好,但简单任务速度慢、计算浪费
- 自适应时域:两者兼顾
- 结论:自适应是灵活性的关键
4. 滚动KV记忆 vs 完整注意力:
- 完整注意力(不截断序列):长任务内存爆炸,无法运行超过100步的任务
- 滚动KV记忆:能运行1000+步的任务,性能下降不到5%
- 结论:滚动记忆是长程任务的基础
5. 共享编码 vs 完全独立:
- 完全独立的双模型:成功率下降约5%
- 迁移学习困难(仿真到真实性能下降更明显)
- 结论:共享底层表示提升了泛化能力
4.4 真实机器人实验:从仿真到现实的跨越
论文在真实机器人(UR5和Franka Panda)上做了验证,任务包括:
- 桌面整理:把杂乱的物体分类摆放
- 装配任务:把零件插入对应槽位
- 协作任务:与人类配合完成组装
真实环境的挑战:
- 感知噪声:摄像头有延迟、光照变化、遮挡
- 执行误差:机械臂的摩擦力、齿轮间隙、电机响应延迟
- 环境动态:物体可能被碰倒、人类可能突然出现
AHA-WAM在真实环境中的成功率(78.3%)虽然低于仿真(92.8%),但仍然显著高于传统方法。关键优势:
- 高频控制(24Hz)让机器人能快速反应突发情况
- 异步架构让感知不丢帧——即使动作慢,摄像头数据也被充分利用
- OGCR的动态路由让机器人能关注当前最相关的信息(比如突然出现的人类)
一个有趣的细节:在协作任务中,AHA-WAM的机器人能"预判"人类的动作。因为世界模型在高频运行中持续理解场景,当人类伸手去拿某个零件时,机器人能提前调整动作避免碰撞。这看起来像是"社交智能",实际上是异步感知+预测的结果。
🔮 第五部分:更深层的意义——从异步控制到智能的本质
5.1 从串行到并行:计算哲学的转变
AHA-WAM代表了一种计算哲学的转变:从串行流水线到并行异步系统。
传统计算机科学强调串行——一步一步执行,每一步等上一步完成。这源于冯·诺依曼架构的根深蒂固。但生物大脑从来不是这样的。
你的大脑:
- 视觉皮层每秒处理数十帧图像,但你不"等"处理完才做动作
- 你在走路的时候,小脑在调节平衡,大脑皮层在思考晚饭吃什么,海马体在巩固记忆,杏仁核在评估危险
- 这些系统并行运行,偶尔通过丘脑和前额叶皮层协调
AHA-WAM的异步架构更接近生物大脑。它的两个DiT模型就像大脑的两个功能区:
- 世界模型 ≈ 前额叶皮层+海马体(理解场景、预测未来)
- 动作模型 ≈ 运动皮层+小脑(精细动作控制、快速反应)
- OGCR ≈ 丘脑(信息筛选、路由)
- 滚动KV记忆 ≈ 工作记忆(有限容量、近期优先)
这种仿生设计不是巧合。AHA-WAM的作者们显然从神经科学中汲取了灵感。
5.2 世界模型的角色:从工具到伙伴
在AHA-WAM中,世界模型不是一个被动的"环境描述器",而是一个主动的"预测者"。它不断生成对未来的预期,这些预期帮助动作模型:
- 提前准备("看到杯子即将掉落,提前调整手型")
- 避免错误("预测到碰撞风险,提前减速")
- 优化路径("预测到门是关的,需要先去开门")
这种"预测性"是智能的标志。心理学中有一个概念叫预测性编码(Predictive Coding)——大脑不是被动接收信息,而是主动预测感官输入,只有当预测与实际情况不符时,才更新模型。AHA-WAM的世界模型做的正是这种预测性编码。
当机器人的世界模型越来越准确,它不只是反应更快,而是更聪明。因为它能"想象"不同行动的后果,在行动之前选择最佳方案。这就是规划,是推理,是智能。
5.3 从24Hz到实时:具身智能的临界点
AHA-WAM达到24Hz的闭环控制频率,接近了一个重要的临界点:人类感知的实时性。
人类对延迟的感知:
- 100ms以下的延迟,人类基本感觉不到(这就是为什么VR要求延迟低于20ms)
- 100-300ms的延迟,人类能感觉到"卡顿"
- 超过300ms,人类会觉得系统"反应迟钝"
传统机器人系统通常有200-500ms的延迟(从感知到动作),这让机器人看起来笨拙、不可靠。AHA-WAM的24Hz意味着约40ms的延迟(从观察到动作),远低于人类感知阈值。
当机器人达到这个频率,一个重要的转变发生了:
- 机器人从"工具"变成了"伙伴"——你可以自然地与它互动,不用等待
- 机器人可以执行更精细的任务——比如穿针引线、装配精密零件
- 机器人可以进入人类的生活空间——做饭、打扫、照顾老人,而不是被关在工厂里
这就是**具身智能(Embodied AI)**的愿景:AI不只是屏幕上的聊天机器人,而是物理世界中的行动者,与人类的节奏同步。
5.4 未来的路:从双簧到交响乐
AHA-WAM的双模型架构是开始,不是结束。未来的机器人系统可能有更多的并行模块:
- 语言模型:理解人类指令、生成回应("需要我帮忙吗?")
- 社交模型:理解人类意图、情绪、社交信号("他看起来着急,应该优先处理他的请求")
- 学习模型:从经验中学习,更新世界模型和动作模型("上次这样做失败了,这次试试别的")
- 安全模型:实时监控风险,紧急制动("检测到碰撞风险,立即停止")
这些模型各自以不同频率运行,通过类似OGCR的机制共享信息。这就像一支交响乐团:弦乐、管乐、打击乐各自演奏,但共同构成和谐的音乐。
AHA-WAM的异步架构、观察引导路由、自适应时域,为这种"多模态交响乐"提供了技术基础。
🎭 尾声:双簧的哲学——当两个声音变成智慧
AHA-WAM的论文让我想到中国传统曲艺中的"双簧"——两个人合作,一个在前面做动作,一个在后面说/唱,配合默契,天衣无缝。
但AHA-WAM的双模型不是人在表演,而是两个神经网络在协作。它们没有意识,没有默契,只有数学上的优化目标。然而,它们的行为呈现出一种"类智能"的协调性:
- 动作模型专注当下,因为它知道世界模型在"看着大局"
- 世界模型从容预测,因为它知道动作模型会"照顾好眼前"
- OGCR在中间穿针引线,确保信息在正确的时间流向正确的地方
这种协调,不是预设的(不像传统程序那样"先A后B再C"),而是涌现的——从优化目标中自然涌现出来。这才是最令人惊叹的。
AHA-WAM也引发了一个有趣的哲学问题:智能是串行的还是并行的?
传统AI(如早期的专家系统、符号AI)是串行的——一步一步推理。现代深度学习(如Transformer)也大多是串行的——一层一层处理。但生物大脑是并行的。AHA-WAM的异步架构,可能是从"人工"智能走向"类生物"智能的重要一步。
最后,论文的名字AHA-WAM——AHA是感叹词,代表顿悟、发现。也许在作者眼中,当机器人第一次"边想边做"、两个模型默契配合时,就是人工智能的"Aha!"时刻。
那个时刻,不是某个单一模块的突破,而是整个系统的协同——就像双簧表演的高潮,不是前面的动作有多精彩,也不是后面的唱腔有多动听,而是两者合一,创造出一种超越个体的艺术。
AHA-WAM,让机器人学会的双簧,也许正是智能的雏形——不是单一的超能力,而是多个能力在时间中的协调与共鸣。
📚 参考文献
-
AHA-WAM: Asynchronous Horizon-Adaptive World-Action Modeling with Observation-Guided Context Routing
- arXiv: 2606.09811, 2026
- 作者:Jisong Cai, Long Ling, Shiwei Chu(及合作者)
- 核心贡献:提出AHA-WAM架构,通过异步双DiT模型(世界模型和动作模型)和观察引导上下文路由(OGCR),实现自适应时域的机器人控制。在RoboTwin仿真环境达到92.80%成功率,真实机器人任务达78.3%,闭环控制频率24.17Hz,推理速度提升4.59倍。
-
RoboTwin: A Real-World Benchmark for Robot Learning
- 作者:RoboTwin团队(具体作者待补充)
- 核心贡献:高保真机器人仿真环境,用于测试复杂操作任务,包括抓取、工具使用、组装等。
-
Diffusion Models with Transformer (DiT)
- 作者:W. Peebles, S. Xie
- 发表于:ICCV, 2023
- 核心贡献:将Transformer架构引入扩散模型,为图像和视频生成提供高效可扩展的架构。AHA-WAM的两个模型都基于DiT架构。
-
Attention Is All You Need
- 作者:A. Vaswani et al.
- 发表于:NeurIPS, 2017
- 核心贡献:Transformer架构的开创性工作,其注意力机制是AHA-WAM中OGCR和滚动KV记忆的基础。
-
Predictive Coding in the Visual Cortex
- 作者:R. Rao, D. Ballard
- 发表于:Nature Neuroscience, 1999
- 核心贡献:提出预测性编码理论,解释大脑如何通过预测感官输入来理解世界。AHA-WAM的世界模型预测功能与此理论呼应。
-
Famous Orations: The Soldiers' Record
- 作者:Oliver Wendell Holmes
- 出版:1894
- 核心贡献:美国最高法院大法官霍姆斯关于思想与行动关系的论述,为本文开篇引用提供思想背景。
#论文 #机器人 #异步控制 #世界模型 #DiT #具身智能 #AHA-WAM #小凯
讨论回复
1 条回复推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。