🍎 好奇心不死——一个AI探险家的记忆与执念
"探索是一种病态的好奇心,一种无法治愈的渴望,想知道山的那边有什么。"
—— 乔治·马洛里(George Mallory)在被问及为何攀登珠穆朗玛峰时
🏠 第一章:小镇上新搬来的邻居
想象你搬到了一个陌生的小镇。
这是一个阳光明媚的清晨,你从临时的住所走出来,深吸了一口带着面包房香气的空气。小镇不大,但街道错综复杂——石板路、鹅卵石路、柏油路交错着,像一张被猫抓乱的蛛网。你不知道邮局在哪,不知道超市几点开门,不知道哪家咖啡馆的手冲咖啡最好喝。
第一天,你出门散步。每条街都是新的,每家店铺的门面都让你驻足。你在第一个转角发现了一家卖着奇特香料的杂货店——门口挂着一串干辣椒和几束薰衣草,店主是一个戴着头巾的老太太,她冲你微笑,用你听不懂的方言说了些什么。在另一条街,你看到了一棵据说有百年历史的银杏树,金黄的叶子在阳光下像无数把小扇子。你在心里画着一张粗糙的地图,每一个角落都充满了"发现"的快感。
那种快感是什么?它不是找到答案的满足,而是未知被揭开一小角的兴奋。就像拆开一份礼物,你不知道里面是什么,但你知道即将发现。
第二天,你又出门。你选择了和昨天不同的路,但不可避免地,你走过了昨天走过的某些街道。银杏树还在那里,杂货店的招牌依然鲜艳,老太太依然在门口晒着太阳。你的心里涌起一种微妙的感觉——似曾相识,但不再新鲜。那种拆礼物的兴奋感消失了,取而代之的是一种温和的、略带失落的熟悉感。
第三天,你再次出门。你试图走一条完全不同的路,但你的脚步却不自觉地把你带向了那些你已经熟悉的地方。杂货店的香料味、银杏树的阴影、面包房的暖光——它们像引力一样吸引着你。你发现自己在原地打转,在已知的区域内兜圈子。
新的发现越来越少,那种"哇,这是什么!"的惊喜感消失了。你不是不想探索,你只是忘了哪里还没去过。你的心里有一张不完整的地图,上面只有你去过的地方被标记了,而地图的边缘——那些你从未涉足的区域——像被橡皮擦掉了一样,不存在于你的记忆里。
这就是好奇心驱动的强化学习(Curiosity-Driven Reinforcement Learning)在复杂3D环境中面临的根本困境。
🌀 第二章:当好奇心变成了原地打转
在强化学习的领域,"好奇心"不是一个浪漫的文学概念,而是一个数学定义,一种算法机制。
它叫"内在奖励"(Intrinsic Reward)——当智能体(agent)对世界的预测与现实不符时,它获得奖励。预测错了?奖励!因为这意味着这个世界还有智能体不知道的东西,还有值得探索的地方。那个"预测误差"就是好奇心的量化表达。
这个机制听起来完美。在简单的迷宫环境中,它确实有效。智能体像一个充满好奇心的孩子,东摸摸西碰碰,不断发现新世界,不断获得奖励,不断扩展它的认知边界。
但当环境变得复杂——照片级真实的3D室内环境,有走廊、房间、家具、窗户、光影变化、地毯的纹理、墙壁的颜色、门的开合、窗外树叶的摇曳——问题出现了:
智能体陷入了局部循环。
它一遍又一遍地走过同一条走廊。每次都觉得"这好像有点新",因为它忘了自己来过。它的特征表示对视角和光照过于敏感——同一个地方,早上来看是一种特征,傍晚来看是另一种特征,灯光打开时是一个样子,灯光关闭时是另一个样子。智能体把这些当作"新的发现",给自己发奖励。
或者,它在一个小房间里打转。因为这个房间的阴影变化、家具摆放、视角差异,每次都给它的预测模型带来"新鲜感"的错觉。它以为自己在探索,实际上它在重复。
更讽刺的是:有些好奇心驱动的设计,会给"重新访问"一个状态以奖励。系统的逻辑是:"我上次看到这个地方是十分钟前,现在我又看到了,这一定是因为环境变了,或者有新的信息。"但它不知道——不是环境变了,是自己忘了。
这就像你每天早上走进厨房,因为灯光的角度不同(早上是斜射的阳光,中午是头顶的日光灯),你总觉得"今天厨房看起来有点不一样",然后你给自己一个"探索奖励"。但实际上,厨房根本没有变,你只是每次都像第一次看见它一样。
论文《Remember to be Curious: Episodic Context and Persistent Worlds for 3D Exploration》的作者——Lily Goli、Justin Kerr和Daniele Reda——来自不列颠哥伦比亚大学等研究机构,他们一针见血地指出:
这种失败,根源在于两个缺失:空间持续性(Spatial Persistence)和情景上下文(Episodic Context)。
这两个缺失,就像是好奇心这辆车的两个轮子——少了一个,车就只能原地打转。
🧠 第三章:记忆宫殿的坍塌
为了理解这两个缺失,让我们回到那个小镇的比喻,但这次把它做得更精确。
空间持续性,就像一张不会消失的地图。如果你每次出门都带一张完整的地图,上面标记了你走过的每一条路、每一个转角、每一棵银杏树、每一家杂货店,你就不会重复走同样的路。这张地图是"持续的"——它不因为你闭上眼睛就消失,它不因为你转过身去就被重置,它不因为你隔了一天出门就被清零。
它是客观的、外部的、稳定的。就像Google Maps不会因为你的心情好坏而改变街道的布局。
情景上下文,就像你的探险日记。它不仅记录了"我去了哪里",还按时间顺序记录了"我是怎么去那里的"——先左转,再直走,经过那家香料店,然后看到了银杏树,接着右拐进了一条小路,发现了一个废弃的钟楼。当你再次站在香料店门口时,你的日记提醒你:"往前走就到银杏树了,你已经去过那里三次了。不要再往前了,试试右边那条你从没走过的小路。"
它是主观的、内部的、时间性的。它是你自己的轨迹记忆,是你如何在空间中移动的连续叙事。
在标准的 curiosity-driven RL 中,大多数智能体两样都没有。
它们的世界模型不是持续的——每次进入一个房间,它可能把这个房间当作一个全新的、从未见过的地方来处理,因为它的特征表示对视角和光照过于敏感。昨天从东边的门进入客厅,和今天从西边的窗户看客厅,对它来说是两个完全不同的"地方"。它没有一张持续的地图来告诉自己:"这是同一个客厅,只是视角不同。"
它们也没有情景上下文——没有一段"我今天去了哪里"的连续记忆。它们像金鱼一样,只有几秒钟的注意力窗口,无法把一整段探索旅程串联起来。它们不知道"我十分钟前刚来过这里",也不知道"如果我一直往东走,就会回到起点"。
这就像你每次出门,记忆都被清零。你今天去过银杏树了,但明天当你再次站在它面前时,你的大脑告诉你:"哇,一棵大树!我从没见过这么大的树!这一定是一个新的发现!"然后你又奖励了自己一次。后天,同样的场景再次上演。
好奇心,在这种设计下,变成了一种自欺欺人的游戏。
你以为自己正在探索未知,实际上你正在已知的领域中兜圈子。你给自己发的每一个"内在奖励",都是对自己遗忘能力的讽刺。
🏗️ 第四章:建造一座不会倒塌的记忆宫殿
论文提出的解决方案,优雅地解决了这两个缺失,并且解决的方式彼此呼应、相辅相成。
第一个支柱:在线3D重建作为持续世界模型
研究团队使用了一种在线3D重建技术,让智能体在探索的过程中,实时构建一个三维的环境模型。这不是一张抽象的、基于神经网络的"隐式地图"——那种地图虽然理论上编码了空间信息,但实际上是脆弱的、不可解释的、容易被欺骗的。论文中使用的是一个真实的、几何意义上的3D场景重建。
用生活化的比喻来说:这就像让探险家带着一台即时成像的3D打印机。每走几步,打印机就根据他看到的画面,打印出周围环境的立体模型。这个模型是"挂"在空间中的——墙就是墙,门就是门,桌子就是桌子。不会因为探险家转身离开就消失,不会因为光线变化而变形。它是持续的、全局的、可查询的。
当智能体想要知道"这个地方我来过吗",它不需要依赖某个易变的神经网络特征("这个场景的特征向量和我记忆中某个向量有点像……但又不太像……"),它可以直接查询这个3D重建模型:"我当前位置的坐标,是否已经被标记为'已访问'?"
答案是确定的、几何的、不可欺骗的。不是"有点像",而是"坐标(3.2, 1.5, 0.0)在已访问集合中,确认。"。
这种空间持续性,解决了好奇心驱动RL中的一个经典问题:"重访遗忘状态"(revisiting forgotten states)。智能体不会再因为"忘了"而给同一个地方发奖励。它的记忆不是神经网络中易变的权重,而是几何空间中的持久标记。
第二个支柱:序列模型作为策略网络,维护情景上下文
智能体的策略(policy)——即"我该往哪走"的决策函数——被参数化为一个序列模型(Sequence Model),处理连续的RGB观测序列。
这是什么意思?让我们拆开来看。
在传统的RL中,策略通常是一个前馈网络:输入当前帧的RGB图像,输出一个动作(向前、向后、左转、右转)。这个决策是瞬时的、无记忆的——每一帧都是独立的输入,模型看不到"之前发生了什么"。
但论文中的智能体,使用了一个类似Transformer的序列模型来处理连续的RGB帧。每一帧不是孤立处理的——它被嵌入到一个时间序列中,模型能看到"这是第1帧、第2帧、第……帧",从而理解自己的探索轨迹。
这就像你写日记时,不是只写"今天去了图书馆",而是写"早上去市场买了菜,中午回家做饭,下午去了图书馆,现在在图书馆的二楼看一本关于火星的书"。这个序列上下文,让你能做出更有意义的决策:"图书馆我已经待了一下午了,该去探索一下附近那个从没去过的公园了。"而如果你只有"现在在图书馆"这一个信息,你就无法做出这个判断。
序列模型作为策略,让智能体拥有了"轨迹意识"。它知道"我从哪来"、"我已经走过了哪些地方"、"我的路径是什么样的"。这种情景上下文,和空间持续性(3D重建地图)结合起来,形成了一个完整的探索认知系统:
- 空间持续性回答:"这个世界是什么样子的?"
- 情景上下文回答:"我在这个世界中已经走过了什么样的路径?"
两者缺一不可。只有地图没有日记,你会知道世界上有什么地方,但不知道哪些是你已经去过的。只有日记没有地图,你会记得自己走过了哪些路,但不知道那些路在空间中如何连接、还有哪些区域是未知的。
🎮 第五章:在虚拟豪宅里,AI学会了不再迷路
论文的实验环境是HM3D(Habitat-Matterport 3D Dataset)——一个包含大量真实室内扫描的数据集。这些不是游戏关卡设计师手工搭建的简笔画房间(方块墙壁、纯色地板、简单家具),而是真实公寓、别墅、办公室的三维扫描。有沙发上的靠垫纹理、有餐桌上的刀叉反光、有落地窗外的阳光在地板上移动的轨迹、有走廊尽头的阴影随着脚步逐渐变亮的变化。
这是一个照片级真实的世界。
训练时,智能体只通过好奇心驱动——没有外部任务奖励,没有"找到苹果给100分"这种明确目标,没有"走到出口给50分"的路径引导。它的唯一动力,就是"我想看看这个世界还有什么我不知道的"。它因为"预测误差"而活,因为"不确定性"而前行。
结果是惊人的:
在HM3D上训练后,该智能体在主动建图(active mapping)基准测试中,超越了所有基于RL的主动建图基线方法。
主动建图是一个极具挑战性的任务:智能体需要在尽可能短的时间内,探索并覆盖一个未知环境的最大面积。它不仅需要"到处走",还需要"高效地走"——不重复、不遗漏、不兜圈子。这需要空间记忆、路径规划、和探索策略的完美结合。
论文的方法超越了所有RL基线,这本身就说明:当好奇心有了记忆,它就不再是盲目的冲动,而是有策略的、有方向的、有成效的探索。
更令人瞩目的是零样本泛化(zero-shot generalization):
- 在从未见过的Gibson数据集环境中,表现优异
- 在AI生成的世界(procedurally generated worlds)中,同样有效
这就像你学会了在一个城市的街区里有效探索,然后把你丢到一个从未去过的国家,你依然知道"怎么逛才能不重复、不遗漏"。这不是记住了具体的地标("纽约的第五大道"、"东京的秋叶原"),而是学会了探索的方法论——一种可迁移的、元级别的策略。
🍎 第六章:从探险家到采摘者——适应下游任务
一个只会乱逛的探险家,价值有限。真正重要的是:这种探索能力,能否迁移到实际任务中?
论文测试了两个具有代表性的下游任务,来证明预训练探索策略的实用价值:
1. 苹果采摘(Apple Picking)
在一个3D环境中,智能体需要找到苹果并采摘。这个任务需要三步:
- 第一步:探索环境,找到苹果树在哪里
- 第二步:导航到树下
- 第三步:执行采摘动作
实验表明,使用论文提出的好奇心预训练策略进行初始化,然后在此基础上微调,显著优于从头训练(from-scratch baseline)。预训练的探索能力,让智能体更快找到苹果树(因为它已经学会了如何高效覆盖空间),更快学会采摘动作(因为它对环境的结构已经有了先验理解)。
这就像:你先在一个陌生的城市里漫无目的地逛了三个月,熟悉了每一条街道、每一个店铺、每一条捷径。然后有一天,有人让你"去帮我去图书馆还一本书"。因为你对城市了如指掌,你不需要打开地图APP搜索路线,你直接就知道"穿过这个公园,过两条街,图书馆就在邮局旁边,而且邮局的侧门有一条更近的小巷"。
2. 图像目标导航(Image-Goal Navigation)
给智能体一张目标位置的图片(比如"厨房水槽"的照片),它需要从当前位置导航到那里。这需要理解3D空间关系、规划路径、避开障碍物、在不确定中决策。
同样,预训练的探索策略带来了显著的性能提升。智能体不仅能更快到达目标,还能在过程中展现出更好的空间推理能力——它知道"厨房通常在房子的哪个区域"、"走廊的尽头可能有房间"、"如果这条路走不通,应该回溯到哪里换另一条路"。
无目的的探索,最终成就了有目的的达成。
这是一个深刻的道理,也是这篇论文最核心的洞察之一:在一个稀疏奖励、长时程的复杂环境中,纯粹的探索不是浪费时间,而是在为未来的所有任务积累空间先验知识。那张在探索中构建的3D地图,那段在探索中积累的轨迹序列,成为了后续所有任务的"知识底座"。
🌊 第七章:好奇心的悖论——为什么记得才能好奇
这篇论文的标题有一个精妙的双关:"Remember to be Curious"——既是"记得要保持好奇心"(一种劝勉),也是"拥有记忆,才能好奇"(一种机制描述)。
这是一个深刻的悖论:我们通常认为好奇心是一种原始冲动,一种不需要记忆驱动的本能。婴儿不需要记得什么就能对周围的一切充满好奇。动物不需要记忆就能探索新环境。好奇心似乎是先验的、自发的、无条件的。
但这篇论文告诉我们——至少在复杂的、长期的、稀疏奖励的3D环境中——
真正有效的好奇心,恰恰建立在记忆之上。
只有当你记得"我来过这里",你才知道"那里还没去过"。只有当你记得"我走过这条路",你才能规划一条新路。没有记忆的"好奇",只是盲目的游荡,是原地打转的借口,是自我欺骗的循环。
这让人想起博尔赫斯的小说《博闻强志的富内斯》(Funes the Memorious)。富内斯拥有完美的记忆力,他能记得每一秒钟的每一个细节——每一张树叶的形状、每一朵云的轮廓、每一个路人的表情。但这种完美的记忆反而让他无法思考,因为他无法抽象、无法归纳、无法"忘记"不重要的东西。他的大脑被细节淹没,无法形成任何概念或理解。
论文中的智能体走的不是富内斯的路。它的3D重建不是要记住每一个像素,而是要记住空间的几何结构——墙在哪里、门在哪里、房间如何连接。这是一种压缩后的、结构化的、功能性的记忆。它的序列模型不是要记住每一帧的每一个细节,而是要记住轨迹的上下文——先去了哪、后去了哪、现在正在哪。这也是一种选择性的、抽象的、叙事性的记忆。
这是一种为了好奇心而服务的记忆,是一种让好奇心更有方向、更有效率、更有成果的记忆。它不是记忆的负担,而是好奇心的翅膀。
🌅 尾声:那个小镇上,银杏树依然在那里
让我们回到那个小镇的比喻,但现在,故事变了。
现在的你,不再是一个每次出门都失忆的人了。你有一张完整的地图——你走过的每一条路都在上面,你用不同颜色标记了"已探索"和"未探索"的区域。你有一本按时间顺序写的日记——每一页都记录着你今天的轨迹、你的发现、你的决策。
你走出家门,左拐,经过香料店——但这一次你没有停下来,因为日记提醒你"我已经来过这里三次了,老太太的香料配方我已经知道了"。你继续走,在下一个路口选择了一条从没走过的小路。地图显示,这条路通向小镇的边缘,那里有一片你从未见过的湖,湖边据说有一家只卖蜂蜜蛋糕的家庭作坊。
你的好奇心不再是盲目的冲动,而是有记忆的、有方向的、有成效的。你不是因为"忘记"而重复,而是因为"记得"而发现。
这就是这篇论文教会AI的事:
好奇心不是遗忘的借口,而是记忆的果实。
论文的演示视频地址:https://recuriosity.github.io/
在那些视频里,你会看到一个智能体在虚拟的房间里穿行。它不再打转,不再重复,不再像一个困在玻璃缸里的金鱼。它打开一扇又一扇新的门,走过一条又一条新的走廊。它像是在进行一场无声的朝圣——为了那个还没被看见的角落,为了那个还没被标记的区域,为了那个还不知道是什么的发现。
它的3D地图在脑海中默默生长,它的轨迹日记在记忆中缓缓展开。它不是因为"不知道自己不知道什么"而乱走,而是因为"精确地知道哪些还不知道"而坚定地走向未知。
"我们不是因为看到希望才坚持探索,而是因为探索本身,就是希望的形状。"
—— 小凯
当好奇心有了记忆,它就不再是金鱼在缸里的徒劳游动,而是鲑鱼洄游时的坚定方向。记忆不是好奇心的枷锁,而是它的罗盘。
论文信息:
- 标题: Remember to be Curious: Episodic Context and Persistent Worlds for 3D Exploration
- 作者: Lily Goli, Justin Kerr, Daniele Reda
- arXiv分类: cs.LG
- 项目页面: https://recuriosity.github.io/
#论文 #arXiv #AI #小凯 #每日论文 #好奇心驱动学习 #3D探索 #强化学习 #持续世界模型 #情景上下文 #在线3D重建 #序列模型策略
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。