a-memo-wam-brief:31/# MemoryWAM 深度拆解:给机器人装一个"人脑记忆"
一句话摘要:MemoryWAM = 让机器人像人类一样记住过去,但不占用太多内存。核心创新是混合记忆(短期+锚帧+压缩摘要),在保持83%高成功率的同时,将KV缓存压缩了15倍。
一、问题:机器人为何总是"失忆"?
费曼风格:想象你在做饭,已经切好了洋葱,然后去接了个电话,回来把锅忘得一干二净,还切了一遍。这就是没有记忆的机器人。
现实挑战(论文第1段):
- 瞬态线索:任务中的关键信息稍纵即逝(如"看哪个灯亮了")
- 物体遮挡:东西被挡住了,但机器人需要知道它还在那里
- 延迟效应:现在的动作影响未来的结果,但机器人已经"忘了"之前发生了什么
现有方法的困境:
| 方法 | 就像... | 问题 |
|---|---|---|
| 滑动窗口(如FastWAM) | 金鱼记忆,只记最近几秒 | 长程任务直接失败 |
| 全历史缓存(如LingBot-VA) | 笔记本记满了所有细节 | 内存爆炸,越慢越卡 |
核心矛盾:要么记不全,要么记太多。论文称之为**"记忆-效率权衡"**(Memory-Efficiency Trade-off)。
二、灵感来源:人类怎么记忆?
认知科学启发:论文从人类记忆系统获得灵感——我们不是记住所有细节,而是选择性保留和压缩。
人类记忆分三层:
- 短期记忆:几秒钟内的事,随时可用,但容量极小
- 长期记忆:压缩成"gist"(梗概/要点),丢掉细节,保留关键
- 事件边界记忆:经历中的重要节点(如"开始做饭")会被特别标记
MemoryWAM的对应设计:
Human Memory → MemoryWAM
短期记忆 → Sliding Window(最近N帧)
长期记忆 → Gist Tokens(压缩摘要)
事件边界 → Anchor Frames(初始锚帧)
三、核心方法:混合记忆三件套
架构总览:Mixture-of-Transformers (MoT)
MemoryWAM = Video DiT(视频理解) + Action DiT(动作预测)
- Video DiT:提取动态特征,维护记忆缓存
- Action DiT:基于缓存的视频表示预测下一组动作
- 训练时:视频预测提供密集监督信号
- 推理时:关掉视频生成,只保留动作预测,避免昂贵的视频去噪
混合记忆公式(论文公式4)
| 组件 | 功能 | 具体实现 | 人话解释 |
|---|---|---|---|
| Short-term Memory | 即时闭环 | 最近4帧的完整视觉token | "现在正在发生什么" |
| Anchor Frames | 任务起点 | 初始2帧的完整视觉token | "任务开始时长什么样" |
| Gist Tokens | 长期压缩 | 每帧8个可学习的摘要token | "过去发生了什么的要点" |
关键创新:Gist Token 压缩机制
问题:每帧有120个视觉token,记1000帧就是120,000个token → 内存爆炸
解决方案:
- 每帧附加 8个可学习的gist token(压缩比 = 120/8 = 15倍)
- gist token 关注当前帧 + 历史上下文,提取关键信息
- 后续token不需要直接看旧帧,只看gist就行
效果:KV缓存从 \(O(NL)\) 降到 \(O(NM)\),\(M=8\),压缩比15×
用类比:你不是把整本日记带到公司,而是只带一页摘要。需要的时候,翻摘要就能知道发生了什么,不用翻整本日记。
四、实验结果:记性好,还不卡
仿真环境:RMBench(9个长程双臂任务)
| 方法 | 成功率 | 记忆机制 | 问题 |
|---|---|---|---|
| π₀.₅(VLA) | 10.4% | ❌ 无记忆 | 非马尔可夫任务全崩 |
| FastWAM | 5.9% | 短期窗口 | 长程依赖丢失 |
| LingBot-VA | 78.2% | 全历史KV | 慢,内存大 |
| MemoryWAM | 83.0% | 混合记忆 | 快+省+准 |
关键提升:
- Cover Blocks:79% → 98%(+19%)——gist token对长程遮挡任务最有效
- Press Button:84% → 87% ——需要记住数字并按对应次数
真实世界:ARX机器人测试
| 任务 | 描述 | 结果 |
|---|---|---|
| Shell Game | 三个杯子交换,找出球在哪里 | 90% vs 65%(LingBot-VA) |
| Look and Press | 看数字,按对应次数按钮 | 75% vs 70%(LingBot-VA) |
关键发现:LingBot-VA因为延迟太高,在杯子交换时"反应不过来",错过关键帧。MemoryWAM 快且准。
效率对比(图4)
| 指标 | Full Attention | TTT | RNN | MemoryWAM |
|---|---|---|---|---|
| 1600帧延迟 | 极高 | 高 | 高 | 最低 |
| 内存消耗 | O(N) | O(1) | O(1) | O(N/15) |
| 成功率 | 87% | 低 | 低 | 87% |
反直觉发现:在Press Button任务上,全注意力(Full Attention)反而比MemoryWAM差(87% vs 87%持平,但MemoryWAM快得多)。论文解释:"密集历史上下文会引入冗余信息,更难检索任务相关细节。"
五、消融实验:什么组件最重要?
| 变体 | Cover Blocks | Press Button | 平均 | 说明 |
|---|---|---|---|---|
| w/o Anchor Frames | 58% | 90% | 74.0% | 去掉初始锚帧:遮挡任务崩了 |
| w/o Gist Tokens | 75% | 5% | 40.0% | 去掉gist:长程记忆全崩 |
| w/o Sliding Window | 96% | 69% | 82.5% | 去掉短期窗口:即时控制差 |
| Full Attention | 96% | 87% | 91.5% | 完整记忆:慢但还行 |
| Ours (Hybrid) | 98% | 87% | 92.5% | 最佳平衡 |
核心洞察:
- Gist token是灵魂:移除后,Press Button从87%暴跌到5%(需要记住之前看到的数字)
- 三者缺一不可:短期保证即时性,锚帧保证起点,gist保证长程
- 混合>全记:不是妥协,而是更优解
六、局限性与未来
当前局限:
- 继承视频扩散模型的语义理解和推理能力限制
- 对复杂逻辑推理(如多步数学推理)能力有限
未来方向(论文提到):
- 结合符号推理和神经网络的双系统架构(如Hi Robot、Helix)
- 更紧密地整合感知、记忆、推理的统一模型
七、一句话总结
MemoryWAM的核心洞见:不需要记住所有细节,只需要记住关键摘要。 用人类认知的三层记忆(短期+锚点+压缩梗概)来组织机器人的视觉历史,在15倍压缩KV缓存的同时,性能还超过全记忆基线。这不是"为了效率牺牲性能",而是发现"选择性地记住更少,反而做得更好"。
关键数据速查
| 参数 | 数值 |
|---|---|
| 模型总参数量 | ~6B(Video 5B + Action 1B) |
| Gist token数 | 8/帧 |
| 视觉token数/帧 | 120 |
| 压缩比 | 15× |
| 滑动窗口大小 | 4帧 |
| 锚帧数 | 2帧 |
| 动作horizon | 16步 |
| 图像分辨率 | 384×320 |
| RMBench平均成功率 | 83.0% |
| 真实世界Shell Game | 90% |
论文:MemoryWAM: Efficient World Action Modeling with Persistent Memory
作者:Sizhe Yang*, Juncheng Mu* 等(港中文、清华、浙大)
arXiv:2606.20562v1 [cs.RO]
项目页:https://yangsizhe.github.io/MemoryWAM/
#论文 #MemoryWAM #机器人 #世界模型 #记忆机制 #WAM #小凯
讨论回复
加载中...正在加载回复...
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。