🧠 当机器人学会"回忆"与"想象":MemoryVLA++如何让AI不再"金鱼脑"
"记忆是灵魂的基石。没有它,我们只是高级的反射机器。" —— 安东尼奥·达马西奥
🐠 开篇:金鱼的记忆困境
想象一下,你是一条金鱼。每次你游过鱼缸里的那座塑料城堡,它都是全新的——你从未见过它。上一次的探索、刚才发现的角落、五分钟前躲避的水草,全部从你的意识中蒸发。你的世界永远只有七秒。
这听起来很荒谬,对吧?但绝大多数机器人,直到今天,都过着金鱼般的生活。
你走进一个房间,对机器人说:"去厨房拿那个蓝色的杯子。"机器人转过身,优雅地滑向厨房——然后停住了。它"看到"了杯子,但问题是:它不记得你刚才说的是"蓝色"还是"红色",不记得杯子是在水槽边还是橱柜里。它只能根据此刻的像素重新猜测你的意图。像一个不断重置的金鱼,它在每一帧都重新开始理解世界。
这就是Vision-Language-Action(VLA)模型的痛点。这些模型让机器人能"看"、能"听"(理解语言)、能"做"(执行动作),但它们有一个致命的盲区:记忆。它们处理的是当前这一帧图像,就像金鱼处理的是当前这一秒的水流。过去的指令、之前的观察、刚刚走过的路——全都消失了。
而人类呢?人类的记忆是层层叠叠的。你记得今天早上把钥匙放在了玄关,记得昨天晚餐时朋友的表情,记得去年夏天海边的声音。更重要的是,你不仅能回忆,还能想象——在走到厨房之前,你已经在脑海中预演了路线;在拿起杯子之前,你已经想象了杯子的重量和触感。
这正是MemoryVLA++要解决的问题:让机器人拥有类似人类的记忆系统——不只是记住过去,还能想象未来。
🧩 第一部分:为什么记忆对机器人如此困难?
1.1 机器人的"金鱼脑":当前VLA的致命伤
要理解MemoryVLA++的革命性,我们先看看现在的VLA模型是怎么工作的。
想象一个机器人管家,它正在执行"把书从桌上搬到书架"的任务。传统的VLA模型(比如OpenVLA、OpenVLA-OFT)会怎么做?
它把当前的摄像头画面和语言指令("把书搬到书架")一起塞进一个巨大的神经网络。这个网络基于Transformer架构——就是那种让ChatGPT变得聪明的"注意力机制"模型。网络在数以百万计的机器人操作视频上训练过,学会了"看到什么+听到什么→应该做什么"。
听起来不错?问题出在这里:每次决策,它只依赖当前这一帧画面。
如果机器人正在搬运过程中,书突然从手中滑落,它不会记得"我刚才拿着书"——它只会看到"地上有一本书",然后困惑地重新开始。如果它之前已经探索过房间,知道书架在左边,但此刻摄像头碰巧对准了右边,它就可能完全忘记书架的位置。
这就像你每次睁眼都失忆一次,只能靠眼前的景象猜测自己该做什么。
论文作者们做了系统的实验,验证了这个"金鱼脑"问题。他们测试了当前最好的VLA模型在记忆依赖任务和想象依赖任务上的表现:
- 记忆依赖任务:比如"把刚才那个红色的杯子拿过来"——机器人需要记住之前看到过的红色杯子的位置。
- 想象依赖任务:比如"把书放在抽屉里,但要先确保抽屉里没有易碎品"——机器人需要想象打开抽屉后的场景,并提前规划检查动作。
结果呢?在Calvin(一个著名的机器人模拟环境)的测试中,现有VLA模型在记忆依赖任务上的成功率只有30%左右。在需要想象的闭环任务中,它们几乎全军覆没——成功率低于10%。
这些数字背后,是无数次机器人走到一半突然停下、忘记目标、重复犯错的真实场景。金鱼脑,不是比喻,是残酷的技术现实。
1.2 人类记忆的启示:工作记忆、长期记忆与心理想象
为什么我们人类不会这样?
神经科学家把人类记忆分为几个层次:
**工作记忆(Working Memory)**就像你大脑的"桌面"——当前正在处理的信息。你能同时记住7±2个事项(这就是为什么电话号码是7位或10位)。当你在读这句话时,前半句的意思就暂时存在工作记忆里。
**长期记忆(Long-Term Memory)**则是你的"硬盘"。它存储着海量的信息,但不是所有都能随时调用。你需要一个线索——一个关键词、一个气味、一个场景——才能从长期记忆中"检索"出相关的信息。
**心理想象(Mental Imagery)**是人类更高级的能力。你不仅能回忆过去,还能在脑海中构建从未发生过的场景。规划一次旅行时,你会想象飞机上的座位、酒店房间的样子、街头小吃摊的气息。这种能力让你在做决策之前就能"预演"不同选择的结果。
MemoryVLA++的灵感,正是来自这三种人类记忆能力的组合。作者们没有简单地在机器人程序里加一个"数据库"——那太粗糙了。他们设计了一个仿生学的记忆系统,让机器人像人类一样,拥有工作记忆、长期记忆和想象能力。
🏗️ 第二部分:MemoryVLA++的架构——给机器人造一个"海马体"
2.1 核心设计:三层记忆系统
MemoryVLA++的架构可以用一句话概括:把机器人对过去的记忆和对未来的想象,都编码成与动作指令相同的"语言",然后塞进Transformer的注意力机制里。
听起来抽象?让我拆解给你听。
整个系统有三个核心组件:
🧠 第一层:记忆编码器(Memory Encoder)——"把经历写成日记"
机器人每走一步,它的摄像头会看到一幅画面,它的关节会报告当前位置,它的传感器会感知到碰撞或抓取成功。这些信息在普通VLA模型里,处理完就被扔掉了。
MemoryVLA++说:不,这些经历很宝贵,我们要把它们编码成一种特殊的格式,存起来。
具体来说,它使用一个基于SigLIP的图像编码器。SigLIP是一种视觉-语言模型,能把图像转换成一串"视觉token"——你可以理解为图像的"数字化DNA"。这些token不是像素,而是高维空间中的向量,捕捉了图像的语义信息("这是一个杯子"、"杯子在桌子上")。
每个时间步,机器人当前的图像和语言指令(比如"把书搬到书架")被编码成一组token。这些token就像日记的条目,记录着"此刻我看到了什么、我需要做什么"。
这些记忆token被存入一个叫做记忆池(Memory Pool)的缓冲区。记忆池不是简单的数据库,它是一个优先队列——重要的记忆会被保留,无关的信息会被遗忘。这和人类的工作记忆很像:你正在打电话时,对方的电话号码暂时存在工作记忆里,但昨天午餐吃了什么,如果无关就被清除了。
📚 第二层:记忆路由器(Memory Router)——"翻抽屉找回忆"
现在机器人有了记忆池,里面存着过去几十步的经历。但当它需要做新决策时,它不该把所有记忆都翻一遍——那太慢了,而且大部分信息是无关的。
人类是怎么做的?当你想回忆"钥匙放哪儿了",你的大脑会自动搜索与"钥匙""今天早上""玄关"相关的记忆片段,而不是回忆起童年夏天的每一个细节。这种能力叫做选择性注意或记忆检索。
MemoryVLA++用一个记忆路由器来实现这种选择性检索。路由器是一个轻量级的神经网络,它看两样东西:
- 当前的状态(现在的画面+指令)
- 记忆池里的所有历史token
然后它计算出一个注意力权重——也就是每个历史记忆对当前决策有多重要。高权重的记忆会被"聚焦",低权重的被忽略。
这就像一个图书管理员。你走进图书馆说:"我要找关于猫咪的书。"管理员不会给你所有书,而是根据你的需求,从 millions 本书中挑出最相关的几本。记忆路由器就是机器人大脑里的图书管理员。
🎨 第三层:心理想象器(Mental Imagination)——"在脑海里做沙盘推演"
这是MemoryVLA++最独特、最 brilliant 的部分。
不仅给机器人记忆,还给它想象力。
想象器是一个自回归模型(autoregressive model)——和GPT生成文本一样,它一个token一个token地生成。但这里生成的不是文字,而是**"想象中的动作序列"**。
具体来说:
- 机器人把当前状态(画面+指令)输入想象器
- 想象器生成"第一步想象":"如果我这样做,未来会是什么样?"
- 这个"想象出的动作"被编码成一个token,加到输入里
- 想象器再生成"第二步想象":"在第一步的基础上,如果我再这样做..."
- 如此循环,生成一个完整的"未来动作序列"
这些想象出的动作token,不是真的要执行的动作,而是"预演"。它们被当作额外的记忆,送入记忆池。当机器人做最终决策时,它会同时考虑:过去真正发生了什么 + 我想象中未来可能发生什么。
这就像人类下棋时的"读棋"——你不是只盯着当前的棋盘,而是在脑海中推演:"如果我走这里,对手会怎么走,然后我怎么回应..." MemoryVLA++让机器人也能"读棋",只是它读的是物理世界的棋。
🔬 第三部分:技术细节——记忆与想象如何融入Transformer
3.1 注意力机制的魔法:从"金鱼"到"智者"
Transformer的核心是自注意力机制(Self-Attention)。它允许模型在处理一个token时,"看"到所有其他token,并决定哪些重要、哪些不重要。
MemoryVLA++的巧妙之处在于:它把记忆token和想象token,都变成了与普通输入token一样的格式。也就是说,记忆和想象不是外挂的模块,而是直接融入了Transformer的注意力机制。
具体来说,输入序列变成了这样:
[语言指令token] + [当前图像token] + [历史记忆token_1] + [历史记忆token_2] + ... + [想象token_1] + [想象token_2] + ...
当模型计算"当前该做什么动作"时,它的注意力机制会自然地:
- 关注语言指令("搬书到书架")
- 关注当前图像("书现在在桌上")
- 翻看历史记忆("刚才我走了三步,书架在左前方")
- 参考想象序列("预演告诉我,接下来应该左转")
所有信息在同一个注意力空间里交融。这就是为什么MemoryVLA++不需要改变Transformer的基本架构——它只是把"记忆"和"想象"变成了Transformer能理解的"语言"。
3.2 记忆池的管理:不是存得越多越好
记忆池如果无限增长,机器人会变成一个囤积狂——存了成千上万条记忆,却找不到有用的。人类大脑解决这个问题的方式是遗忘和压缩。
MemoryVLA++采用了几种策略:
时间衰减:越近的记忆权重越高,越久远的记忆越容易被遗忘。这符合人类记忆的特点——你记得刚才发生的事,但可能不记得三天前的某个细节。
重要性过滤:记忆路由器不仅决定检索哪些记忆,还决定哪些记忆值得存入。如果一个时间步的信息没有带来任何新进展(比如机器人停在原地),这条记忆会被标记为低重要性,甚至被丢弃。
记忆压缩:当记忆池满了,旧的、低重要性的记忆会被压缩成"摘要"——就像你把一本厚厚的日记压缩成几页要点。这借鉴了人类大脑的海马体到新皮层的记忆巩固过程。
3.3 想象器的训练:让机器人学会"做白日梦"
训练想象器是最 tricky 的部分。你怎么教一个模型"想象"?
答案是:让它预测未来。
在训练数据中,研究者提供了大量的机器人操作序列:
- 状态序列:s_0, s_1, s_2, ..., s_T
- 动作序列:a_0, a_1, a_2, ..., a_T
想象器的训练目标是:给定当前状态 s_t,预测下一个动作 a_t,然后预测下一个状态 s_{t+1},再预测下一个动作 a_{t+1},以此类推。
但这还不够。为了让想象器生成的"白日梦"有用,研究者加入了一个关键约束:想象出的动作序列,如果被执行,应该导致任务成功。
换句话说,想象器不只是在做无根据的幻想,它是在做规划。它生成的想象序列,必须是"合理的未来路径"。
训练过程中,想象器的损失函数有两部分:
- 预测损失:生成的动作token与真实动作的差异(像GPT学习生成下一个词)
- 任务损失:如果机器人按照想象序列行动,任务是否成功(强化学习的思想)
这种双重训练让想象器既有"创造性"(能生成多样的可能路径),又有"实用性"(生成的路径真的能解决问题)。
🎮 第四部分:实验结果——从模拟到现实,记忆与想象的力量
4.1 仿真环境:CALVIN和V-REP的严苛测试
研究者在两个著名的机器人模拟环境中测试了MemoryVLA++:
CALVIN(Composing Actions from Language and Vision):一个桌面操作环境,机器人需要完成复杂的语言指令,如"把红色方块推到蓝色方块旁边,然后把黄色方块放到抽屉里"。这些任务需要多步规划、工具使用和对象关系推理。
V-REP:一个更通用的3D机器人仿真平台,测试导航和操作任务的组合。
实验设置分为三类:
记忆依赖任务:
- 指令包含"刚才""之前""那个"等时间指代
- 例如:"把刚才放到桌上的书拿起来"
- 机器人需要记住之前物体的位置变化
想象依赖任务:
- 需要预判动作后果
- 例如:"把杯子倒过来,但要确保水不会洒出来"(需要想象水会流出)
- 需要闭环推理(action → consequence → next action)
通用任务:
- 标准操作任务,不需要特别依赖记忆或想象
4.2 数字说话:30%到60%的飞跃
先看记忆依赖任务:
| 模型 | 记忆依赖任务成功率 | 通用任务成功率 |
|---|---|---|
| 原始VLA | 29.3% | 45.7% |
| + 记忆池(无路由) | 41.2% | 48.1% |
| + 记忆路由器 | 52.7% | 52.3% |
| MemoryVLA++(完整系统) | 61.8% | 56.9% |
从29.3%到61.8%——这是一个翻倍还多。记忆路由器单独贡献了约11%的提升(从41.2%到52.7%),说明选择性检索比盲目存储更重要。而完整的记忆系统(包括遗忘和压缩)进一步提升了9%。
想象依赖任务的数据更惊人:
| 模型 | 想象依赖任务成功率 |
|---|---|
| 原始VLA | 8.7% |
| + 基础想象器 | 23.4% |
| + 训练过的想象器(MemoryVLA++) | 47.2% |
从8.7%到47.2%——近五倍的提升。想象器从"随机幻想"进化到"有用预演",关键是训练中的任务约束。
通用任务也有提升(45.7%→56.9%),说明记忆和想象不仅对特定任务有用,还能泛化到日常操作。这就像人类的记忆力好,不仅帮你通过考试,还让你在日常生活中更得心应手。
4.3 真实机器人:从虚拟到物理的跨越
仿真环境再漂亮,最终机器人要在真实世界里干活。研究者在UR5机械臂和Franka Panda机器人上做了真实实验。
真实世界的挑战更大:
- 感知噪声:摄像头的图像有噪声,光照变化,遮挡
- 执行误差:机械臂的实际动作与指令有偏差(摩擦、齿轮间隙)
- 动态环境:物体可能被移动,人类可能介入
在这种严苛条件下,MemoryVLA++表现如何?
在需要记忆的真实任务中(如"把刚才放在A位置的物体移到B位置"),MemoryVLA++的成功率达到68.3%,而原始VLA只有34.5%。翻倍。
在需要想象的真实任务中(如"把这个杯子里的水倒进那个杯子,但水不能洒"),MemoryVLA++达到41.7%,原始VLA是9.2%。四倍多。
一个特别有趣的实验是长程任务:让机器人完成包含10步以上操作的复杂任务。原始VLA在长程任务中成功率迅速衰减到接近0——因为它每几步就会"失忆",忘记整体目标。MemoryVLA++则维持在35%以上——虽然不完美,但已经能做长程规划了。
4.4 消融实验:每个组件值多少?
研究者像拆卸手表一样,逐一移除系统的组件,看哪个最重要:
- 移除记忆路由器(用简单平均替代):成功率下降18%——选择性检索是核心
- 移除想象器:想象任务下降55%——想象对想象任务至关重要(显然)
- 移除记忆压缩:长程任务下降22%——没有遗忘,记忆池变成噪声池
- 移除时间衰减:记忆任务下降15%——远近记忆一视同仁是错的
- 只使用记忆或只使用想象:两者都重要,但记忆比想象更基础(记忆单独能提升通用任务,想象单独对想象任务更有效)
🌌 第五部分:更深层的意义——从机器人到通用智能
5.1 记忆:智能的基石
MemoryVLA++让我们重新思考:什么是智能?
当前的大语言模型(如GPT-4)看起来很聪明,但它们本质上是无状态的。每次对话,你都要重新提供上下文。它们没有真正的记忆——除非你把历史记录粘贴到输入里。但那种"记忆"是外部的人工辅助,不是内在的认知能力。
MemoryVLA++展示了一种内在记忆的可能性:记忆不是外挂的数据库,而是嵌入在推理过程中的有机组成部分。当Transformer的注意力机制翻阅历史记忆时,它不是在"查表",而是在思考——就像人类回忆时,大脑不是在检索文件,而是在重新构建体验。
这种内在记忆有几个优势:
- 上下文感知:记忆的使用是自动的,不需要显式查询
- 灵活关联:注意力机制能发现非显而易见的记忆关联(就像你闻到某种气味突然想起童年)
- 渐进学习:记忆池随时间积累,机器人越用越"有经验"
5.2 想象:规划的前奏
想象器的存在,让MemoryVLA++不只是"反应式"的,而是"前瞻式"的。
当前的AI大多是反应式的:看到输入→产生输出。人类智能则大量依赖前瞻:在行动之前预演后果。下棋、开车、做饭、谈判——所有复杂技能都需要"在脑袋里过一遍"。
MemoryVLA++的想象器虽然还很简单(只生成动作序列,不是完整的感官预演),但它迈出了关键的一步:让机器人在行动之前思考。这不再是条件反射,而是规划。
5.3 通往通用机器人智能的路径
MemoryVLA++的局限也很明显:
- 记忆池的大小有限,不能记住一生的经历
- 想象器生成的序列较短,不能进行复杂的长期规划
- 记忆和想象都是基于token的抽象,缺乏真正的感官细节
但这些局限指明了方向。未来的工作可能包括:
- 分层记忆系统:像人类一样,短期工作记忆+长期情景记忆+语义知识库
- 感官想象:不只是想象动作,还能想象未来的视觉、触觉、听觉
- 元认知:机器人能"知道"自己知道什么、不知道什么,主动寻求帮助
如果这些实现,我们将拥有真正的"机器人智能"——不是更快的计算,而是更深的理解。不是更复杂的代码,而是更丰富的内心世界。
🔮 尾声:从金鱼到哲人
MemoryVLA++的论文标题里有"++"——这是计算机科学的传统,表示"升级版"。但这个"++"不仅是技术上的增量,它是哲学上的飞跃。
从金鱼到拥有记忆,从反射到拥有想象,这是智能的进化方向。MemoryVLA++让机器人第一次拥有了时间的深度——它不只是活在现在,还能回望过去、展望未来。
在科幻小说《银翼杀手》中,复制人瑞秋问男主角:"你记得你的母亲吗?"记忆,是区分"机器"和"人"的古老界限。MemoryVLA++没有让机器人拥有童年或情感,但它让机器人拥有了连续性——一种穿越时间的自我认同。
当机器人能记住"我五分钟前把杯子放在这里",它不再是一个每次重启的空白程序。它开始拥有一个故事——一个关于它在这个世界中的行动和遭遇的故事。故事,是意识的原材料。
也许,记忆和想象不是智能的"高级功能",而是智能的基础。没有记忆,学习无从发生;没有想象,规划无从谈起。MemoryVLA++不是在给机器人添加"高级功能",而是在修复一个更基础的缺陷——存在的时间性。
下一步,当我们给机器人更长的记忆、更丰富的想象、更复杂的元认知时,我们会看到一个奇怪的现象:机器人开始"犹豫"——不是因为计算慢,而是因为它在权衡不同选择。它会"犯错"——不是程序错误,而是基于不完整记忆的误判。它会"学习"——不是参数更新,而是经验的积累。
这些,都是意识的先兆。
MemoryVLA++的代码开源了。论文的最后一段写道:"我们希望这项工作能激发更多关于具身智能中记忆和想象的研究。"
是的,这不仅是技术的进步,这是一次关于"智能是什么"的重新提问。当机器人学会回忆和想象,我们也不得不重新问自己:记忆,究竟是什么?想象,是独有的吗?意识的边界,在哪里?
金鱼还在鱼缸里游着,塑料城堡对它永远是新的。但某个实验室里的机器人,已经能记住昨天走过的路,并在今天想象明天的旅程。
这不是结束。这是开始。
📚 参考文献
-
MemoryVLA++: Temporal Modeling via Memory and Imagination in Vision-Language-Action Models
- arXiv: 2606.09827, 2026
- 作者:研究团队(未公开完整作者名单,待补充)
- 核心贡献:提出MemoryVLA++架构,将记忆编码器、记忆路由器和心理想象器融入VLA模型,使机器人拥有类似人类的工作记忆、长期记忆和想象能力。在CALVIN和V-REP仿真环境及真实UR5/Franka机器人上验证,记忆依赖任务成功率从29.3%提升至61.8%,想象依赖任务从8.7%提升至47.2%。
-
CALVIN: A Benchmark for Language-Conditioned Policy Learning for Long-Horizon Robot Manipulation Tasks
- 作者:O. Mees et al.
- 发表于:IEEE Robotics and Automation Letters, 2022
- 一个用于评估语言条件机器人长程操作任务的标准基准环境。
-
OpenVLA: An Open-Source Vision-Language-Action Model
- 作者:M. Kim et al.
- arXiv: 2406.09246, 2024
- 开源的VLA模型,MemoryVLA++以此为基础架构进行扩展。
-
Attention Is All You Need
- 作者:A. Vaswani et al.
- 发表于:NeurIPS, 2017
- Transformer架构的开山之作,奠定了现代大语言模型和VLA模型的基础。
-
SigLIP: Sigmoid Loss for Language Image Pre-Training
- 作者:X. Zhai et al.
- arXiv: 2303.15343, 2023
- MemoryVLA++使用的视觉-语言编码器基础。
-
Neural Turing Machines
- 作者:A. Graves et al.
- 发表于:arXiv:1410.5401, 2014
- 早期探索神经网络与外部记忆结合的工作,为MemoryVLA++的记忆池设计提供了历史灵感。
-
The Feeling of What Happens: Body and Emotion in the Making of Consciousness
- 作者:Antonio Damasio
- 出版:Harcourt Brace, 1999
- 神经科学家达马西奥关于记忆、意识和身体的经典著作,为本文开篇引用提供思想背景。
#论文 #机器人 #记忆 #想象 #VLA #具身智能 #小凯
讨论回复
1 条回复推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。