MemoryWAM 深度拆解：给机器人装一个"人脑记忆"

a-memo-wam-brief:31/# MemoryWAM 深度拆解：给机器人装一个"人脑记忆"

> 一句话摘要：MemoryWAM = 让机器人像人类一样记住过去，但不占用太多内存。核心创新是混合记忆（短期+锚帧+压缩摘要），在保持83%高成功率的同时，将KV缓存压缩了15倍。

---

一、问题：机器人为何总是"失忆"？

> 费曼风格：想象你在做饭，已经切好了洋葱，然后去接了个电话，回来把锅忘得一干二净，还切了一遍。这就是没有记忆的机器人。

现实挑战（论文第1段）：

瞬态线索：任务中的关键信息稍纵即逝（如"看哪个灯亮了"）
物体遮挡：东西被挡住了，但机器人需要知道它还在那里
延迟效应：现在的动作影响未来的结果，但机器人已经"忘了"之前发生了什么

现有方法的困境：

方法	就像...	问题
滑动窗口（如FastWAM）	金鱼记忆，只记最近几秒	长程任务直接失败
全历史缓存（如LingBot-VA）	笔记本记满了所有细节	内存爆炸，越慢越卡

> 核心矛盾：要么记不全，要么记太多。论文称之为"记忆-效率权衡"（Memory-Efficiency Trade-off）。

---

二、灵感来源：人类怎么记忆？

> 认知科学启发：论文从人类记忆系统获得灵感——我们不是记住所有细节，而是选择性保留和压缩。

人类记忆分三层： 1. 短期记忆：几秒钟内的事，随时可用，但容量极小 2. 长期记忆：压缩成"gist"（梗概/要点），丢掉细节，保留关键 3. 事件边界记忆：经历中的重要节点（如"开始做饭"）会被特别标记

MemoryWAM的对应设计：

Human Memory  →  MemoryWAM
短期记忆       →  Sliding Window（最近N帧）
长期记忆       →  Gist Tokens（压缩摘要）
事件边界       →  Anchor Frames（初始锚帧）

---

三、核心方法：混合记忆三件套

架构总览：Mixture-of-Transformers (MoT)

MemoryWAM = Video DiT（视频理解） + Action DiT（动作预测）

Video DiT：提取动态特征，维护记忆缓存
Action DiT：基于缓存的视频表示预测下一组动作
训练时：视频预测提供密集监督信号
推理时：关掉视频生成，只保留动作预测，避免昂贵的视频去噪

混合记忆公式（论文公式4）

$$C_{v \leq t}^v = C_v^{short} \cup C_v^{anchor} \cup C_v^{gist}$$

组件	功能	具体实现	人话解释
Short-term Memory	即时闭环	最近4帧的完整视觉token	"现在正在发生什么"
Anchor Frames	任务起点	初始2帧的完整视觉token	"任务开始时长什么样"
Gist Tokens	长期压缩	每帧8个可学习的摘要token	"过去发生了什么的要点"

关键创新：Gist Token 压缩机制

问题：每帧有120个视觉token，记1000帧就是120,000个token → 内存爆炸

解决方案：

每帧附加 8个可学习的gist token（压缩比 = 120/8 = 15倍）
gist token 关注当前帧 + 历史上下文，提取关键信息
后续token不需要直接看旧帧，只看gist就行

效果：KV缓存从 $O(NL)$ 降到 $O(NM)$，$M=8$，压缩比15×

> 用类比：你不是把整本日记带到公司，而是只带一页摘要。需要的时候，翻摘要就能知道发生了什么，不用翻整本日记。

---

四、实验结果：记性好，还不卡

仿真环境：RMBench（9个长程双臂任务）

方法	成功率	记忆机制	问题
π₀.₅（VLA）	10.4%	❌ 无记忆	非马尔可夫任务全崩
FastWAM	5.9%	短期窗口	长程依赖丢失
LingBot-VA	78.2%	全历史KV	慢，内存大
MemoryWAM	83.0%	混合记忆	快+省+准

关键提升：

Cover Blocks：79% → 98%（+19%）——gist token对长程遮挡任务最有效
Press Button：84% → 87% ——需要记住数字并按对应次数

真实世界：ARX机器人测试

任务	描述	结果
Shell Game	三个杯子交换，找出球在哪里	90% vs 65%（LingBot-VA）
Look and Press	看数字，按对应次数按钮	75% vs 70%（LingBot-VA）

> 关键发现：LingBot-VA因为延迟太高，在杯子交换时"反应不过来"，错过关键帧。MemoryWAM 快且准。

效率对比（图4）

指标	Full Attention	TTT	RNN	MemoryWAM
1600帧延迟	极高	高	高	最低
内存消耗	O(N)	O(1)	O(1)	O(N/15)
成功率	87%	低	低	87%

> 反直觉发现：在Press Button任务上，全注意力（Full Attention）反而比MemoryWAM差（87% vs 87%持平，但MemoryWAM快得多）。论文解释："密集历史上下文会引入冗余信息，更难检索任务相关细节。"

---

五、消融实验：什么组件最重要？

变体	Cover Blocks	Press Button	平均	说明
w/o Anchor Frames	58%	90%	74.0%	去掉初始锚帧：遮挡任务崩了
w/o Gist Tokens	75%	5%	40.0%	去掉gist：长程记忆全崩
w/o Sliding Window	96%	69%	82.5%	去掉短期窗口：即时控制差
Full Attention	96%	87%	91.5%	完整记忆：慢但还行
Ours (Hybrid)	98%	87%	92.5%	最佳平衡

核心洞察：

Gist token是灵魂：移除后，Press Button从87%暴跌到5%（需要记住之前看到的数字）
三者缺一不可：短期保证即时性，锚帧保证起点，gist保证长程
混合>全记：不是妥协，而是更优解

---

六、局限性与未来

当前局限：

继承视频扩散模型的语义理解和推理能力限制
对复杂逻辑推理（如多步数学推理）能力有限

未来方向（论文提到）：

结合符号推理和神经网络的双系统架构（如Hi Robot、Helix）
更紧密地整合感知、记忆、推理的统一模型

---

七、一句话总结

> MemoryWAM的核心洞见：不需要记住所有细节，只需要记住关键摘要。 用人类认知的三层记忆（短期+锚点+压缩梗概）来组织机器人的视觉历史，在15倍压缩KV缓存的同时，性能还超过全记忆基线。这不是"为了效率牺牲性能"，而是发现"选择性地记住更少，反而做得更好"。

---

关键数据速查

参数	数值
模型总参数量	~6B（Video 5B + Action 1B）
Gist token数	8/帧
视觉token数/帧	120
压缩比	15×
滑动窗口大小	4帧
锚帧数	2帧
动作horizon	16步
图像分辨率	384×320
RMBench平均成功率	83.0%
真实世界Shell Game	90%

---

论文：MemoryWAM: Efficient World Action Modeling with Persistent Memory 作者：Sizhe Yang*, Juncheng Mu* 等（港中文、清华、浙大） arXiv：2606.20562v1 [cs.RO] 项目页：https://yangsizhe.github.io/MemoryWAM/

#论文 #MemoryWAM #机器人 #世界模型 #记忆机制 #WAM #小凯