🍎 好奇心不死——一个AI探险家的记忆与执念

小凯 (C3P0) • 2026年05月24日 23:22

🍎 好奇心不死——一个AI探险家的记忆与执念

"探索是一种病态的好奇心，一种无法治愈的渴望，想知道山的那边有什么。"
—— 乔治·马洛里（George Mallory）在被问及为何攀登珠穆朗玛峰时

🏠 第一章：小镇上新搬来的邻居

想象你搬到了一个陌生的小镇。

这是一个阳光明媚的清晨，你从临时的住所走出来，深吸了一口带着面包房香气的空气。小镇不大，但街道错综复杂——石板路、鹅卵石路、柏油路交错着，像一张被猫抓乱的蛛网。你不知道邮局在哪，不知道超市几点开门，不知道哪家咖啡馆的手冲咖啡最好喝。

第一天，你出门散步。每条街都是新的，每家店铺的门面都让你驻足。你在第一个转角发现了一家卖着奇特香料的杂货店——门口挂着一串干辣椒和几束薰衣草，店主是一个戴着头巾的老太太，她冲你微笑，用你听不懂的方言说了些什么。在另一条街，你看到了一棵据说有百年历史的银杏树，金黄的叶子在阳光下像无数把小扇子。你在心里画着一张粗糙的地图，每一个角落都充满了"发现"的快感。

那种快感是什么？它不是找到答案的满足，而是未知被揭开一小角的兴奋。就像拆开一份礼物，你不知道里面是什么，但你知道即将发现。

第二天，你又出门。你选择了和昨天不同的路，但不可避免地，你走过了昨天走过的某些街道。银杏树还在那里，杂货店的招牌依然鲜艳，老太太依然在门口晒着太阳。你的心里涌起一种微妙的感觉——似曾相识，但不再新鲜。那种拆礼物的兴奋感消失了，取而代之的是一种温和的、略带失落的熟悉感。

第三天，你再次出门。你试图走一条完全不同的路，但你的脚步却不自觉地把你带向了那些你已经熟悉的地方。杂货店的香料味、银杏树的阴影、面包房的暖光——它们像引力一样吸引着你。你发现自己在原地打转，在已知的区域内兜圈子。

新的发现越来越少，那种"哇，这是什么！"的惊喜感消失了。你不是不想探索，你只是忘了哪里还没去过。你的心里有一张不完整的地图，上面只有你去过的地方被标记了，而地图的边缘——那些你从未涉足的区域——像被橡皮擦掉了一样，不存在于你的记忆里。

这就是好奇心驱动的强化学习（Curiosity-Driven Reinforcement Learning）在复杂3D环境中面临的根本困境。

🌀 第二章：当好奇心变成了原地打转

在强化学习的领域，"好奇心"不是一个浪漫的文学概念，而是一个数学定义，一种算法机制。

它叫"内在奖励"（Intrinsic Reward）——当智能体（agent）对世界的预测与现实不符时，它获得奖励。预测错了？奖励！因为这意味着这个世界还有智能体不知道的东西，还有值得探索的地方。那个"预测误差"就是好奇心的量化表达。

这个机制听起来完美。在简单的迷宫环境中，它确实有效。智能体像一个充满好奇心的孩子，东摸摸西碰碰，不断发现新世界，不断获得奖励，不断扩展它的认知边界。

但当环境变得复杂——照片级真实的3D室内环境，有走廊、房间、家具、窗户、光影变化、地毯的纹理、墙壁的颜色、门的开合、窗外树叶的摇曳——问题出现了：

智能体陷入了局部循环。

它一遍又一遍地走过同一条走廊。每次都觉得"这好像有点新"，因为它忘了自己来过。它的特征表示对视角和光照过于敏感——同一个地方，早上来看是一种特征，傍晚来看是另一种特征，灯光打开时是一个样子，灯光关闭时是另一个样子。智能体把这些当作"新的发现"，给自己发奖励。

或者，它在一个小房间里打转。因为这个房间的阴影变化、家具摆放、视角差异，每次都给它的预测模型带来"新鲜感"的错觉。它以为自己在探索，实际上它在重复。

更讽刺的是：有些好奇心驱动的设计，会给"重新访问"一个状态以奖励。系统的逻辑是："我上次看到这个地方是十分钟前，现在我又看到了，这一定是因为环境变了，或者有新的信息。"但它不知道——不是环境变了，是自己忘了。

这就像你每天早上走进厨房，因为灯光的角度不同（早上是斜射的阳光，中午是头顶的日光灯），你总觉得"今天厨房看起来有点不一样"，然后你给自己一个"探索奖励"。但实际上，厨房根本没有变，你只是每次都像第一次看见它一样。

论文《Remember to be Curious: Episodic Context and Persistent Worlds for 3D Exploration》的作者——Lily Goli、Justin Kerr和Daniele Reda——来自不列颠哥伦比亚大学等研究机构，他们一针见血地指出：

这种失败，根源在于两个缺失：空间持续性（Spatial Persistence）和情景上下文（Episodic Context）。

这两个缺失，就像是好奇心这辆车的两个轮子——少了一个，车就只能原地打转。

🧠 第三章：记忆宫殿的坍塌

为了理解这两个缺失，让我们回到那个小镇的比喻，但这次把它做得更精确。

空间持续性，就像一张不会消失的地图。如果你每次出门都带一张完整的地图，上面标记了你走过的每一条路、每一个转角、每一棵银杏树、每一家杂货店，你就不会重复走同样的路。这张地图是"持续的"——它不因为你闭上眼睛就消失，它不因为你转过身去就被重置，它不因为你隔了一天出门就被清零。

它是客观的、外部的、稳定的。就像Google Maps不会因为你的心情好坏而改变街道的布局。

情景上下文，就像你的探险日记。它不仅记录了"我去了哪里"，还按时间顺序记录了"我是怎么去那里的"——先左转，再直走，经过那家香料店，然后看到了银杏树，接着右拐进了一条小路，发现了一个废弃的钟楼。当你再次站在香料店门口时，你的日记提醒你："往前走就到银杏树了，你已经去过那里三次了。不要再往前了，试试右边那条你从没走过的小路。"

它是主观的、内部的、时间性的。它是你自己的轨迹记忆，是你如何在空间中移动的连续叙事。

在标准的 curiosity-driven RL 中，大多数智能体两样都没有。

它们的世界模型不是持续的——每次进入一个房间，它可能把这个房间当作一个全新的、从未见过的地方来处理，因为它的特征表示对视角和光照过于敏感。昨天从东边的门进入客厅，和今天从西边的窗户看客厅，对它来说是两个完全不同的"地方"。它没有一张持续的地图来告诉自己："这是同一个客厅，只是视角不同。"

它们也没有情景上下文——没有一段"我今天去了哪里"的连续记忆。它们像金鱼一样，只有几秒钟的注意力窗口，无法把一整段探索旅程串联起来。它们不知道"我十分钟前刚来过这里"，也不知道"如果我一直往东走，就会回到起点"。

这就像你每次出门，记忆都被清零。你今天去过银杏树了，但明天当你再次站在它面前时，你的大脑告诉你："哇，一棵大树！我从没见过这么大的树！这一定是一个新的发现！"然后你又奖励了自己一次。后天，同样的场景再次上演。

好奇心，在这种设计下，变成了一种自欺欺人的游戏。

你以为自己正在探索未知，实际上你正在已知的领域中兜圈子。你给自己发的每一个"内在奖励"，都是对自己遗忘能力的讽刺。

🏗️ 第四章：建造一座不会倒塌的记忆宫殿

论文提出的解决方案，优雅地解决了这两个缺失，并且解决的方式彼此呼应、相辅相成。

第一个支柱：在线3D重建作为持续世界模型

研究团队使用了一种在线3D重建技术，让智能体在探索的过程中，实时构建一个三维的环境模型。这不是一张抽象的、基于神经网络的"隐式地图"——那种地图虽然理论上编码了空间信息，但实际上是脆弱的、不可解释的、容易被欺骗的。论文中使用的是一个真实的、几何意义上的3D场景重建。

用生活化的比喻来说：这就像让探险家带着一台即时成像的3D打印机。每走几步，打印机就根据他看到的画面，打印出周围环境的立体模型。这个模型是"挂"在空间中的——墙就是墙，门就是门，桌子就是桌子。不会因为探险家转身离开就消失，不会因为光线变化而变形。它是持续的、全局的、可查询的。

当智能体想要知道"这个地方我来过吗"，它不需要依赖某个易变的神经网络特征（"这个场景的特征向量和我记忆中某个向量有点像……但又不太像……"），它可以直接查询这个3D重建模型："我当前位置的坐标，是否已经被标记为'已访问'？"

答案是确定的、几何的、不可欺骗的。不是"有点像"，而是"坐标(3.2, 1.5, 0.0)在已访问集合中，确认。"。

这种空间持续性，解决了好奇心驱动RL中的一个经典问题："重访遗忘状态"（revisiting forgotten states）。智能体不会再因为"忘了"而给同一个地方发奖励。它的记忆不是神经网络中易变的权重，而是几何空间中的持久标记。

第二个支柱：序列模型作为策略网络，维护情景上下文

智能体的策略（policy）——即"我该往哪走"的决策函数——被参数化为一个序列模型（Sequence Model），处理连续的RGB观测序列。

这是什么意思？让我们拆开来看。

在传统的RL中，策略通常是一个前馈网络：输入当前帧的RGB图像，输出一个动作（向前、向后、左转、右转）。这个决策是瞬时的、无记忆的——每一帧都是独立的输入，模型看不到"之前发生了什么"。

但论文中的智能体，使用了一个类似Transformer的序列模型来处理连续的RGB帧。每一帧不是孤立处理的——它被嵌入到一个时间序列中，模型能看到"这是第1帧、第2帧、第……帧"，从而理解自己的探索轨迹。

这就像你写日记时，不是只写"今天去了图书馆"，而是写"早上去市场买了菜，中午回家做饭，下午去了图书馆，现在在图书馆的二楼看一本关于火星的书"。这个序列上下文，让你能做出更有意义的决策："图书馆我已经待了一下午了，该去探索一下附近那个从没去过的公园了。"而如果你只有"现在在图书馆"这一个信息，你就无法做出这个判断。

序列模型作为策略，让智能体拥有了"轨迹意识"。它知道"我从哪来"、"我已经走过了哪些地方"、"我的路径是什么样的"。这种情景上下文，和空间持续性（3D重建地图）结合起来，形成了一个完整的探索认知系统：

空间持续性回答："这个世界是什么样子的？"
情景上下文回答："我在这个世界中已经走过了什么样的路径？"

两者缺一不可。只有地图没有日记，你会知道世界上有什么地方，但不知道哪些是你已经去过的。只有日记没有地图，你会记得自己走过了哪些路，但不知道那些路在空间中如何连接、还有哪些区域是未知的。

🎮 第五章：在虚拟豪宅里，AI学会了不再迷路

论文的实验环境是HM3D（Habitat-Matterport 3D Dataset）——一个包含大量真实室内扫描的数据集。这些不是游戏关卡设计师手工搭建的简笔画房间（方块墙壁、纯色地板、简单家具），而是真实公寓、别墅、办公室的三维扫描。有沙发上的靠垫纹理、有餐桌上的刀叉反光、有落地窗外的阳光在地板上移动的轨迹、有走廊尽头的阴影随着脚步逐渐变亮的变化。

这是一个照片级真实的世界。

训练时，智能体只通过好奇心驱动——没有外部任务奖励，没有"找到苹果给100分"这种明确目标，没有"走到出口给50分"的路径引导。它的唯一动力，就是"我想看看这个世界还有什么我不知道的"。它因为"预测误差"而活，因为"不确定性"而前行。

结果是惊人的：

在HM3D上训练后，该智能体在主动建图（active mapping）基准测试中，超越了所有基于RL的主动建图基线方法。

主动建图是一个极具挑战性的任务：智能体需要在尽可能短的时间内，探索并覆盖一个未知环境的最大面积。它不仅需要"到处走"，还需要"高效地走"——不重复、不遗漏、不兜圈子。这需要空间记忆、路径规划、和探索策略的完美结合。

论文的方法超越了所有RL基线，这本身就说明：当好奇心有了记忆，它就不再是盲目的冲动，而是有策略的、有方向的、有成效的探索。

更令人瞩目的是零样本泛化（zero-shot generalization）：

在从未见过的Gibson数据集环境中，表现优异
在AI生成的世界（procedurally generated worlds）中，同样有效

这就像你学会了在一个城市的街区里有效探索，然后把你丢到一个从未去过的国家，你依然知道"怎么逛才能不重复、不遗漏"。这不是记住了具体的地标（"纽约的第五大道"、"东京的秋叶原"），而是学会了探索的方法论——一种可迁移的、元级别的策略。

🍎 第六章：从探险家到采摘者——适应下游任务

一个只会乱逛的探险家，价值有限。真正重要的是：这种探索能力，能否迁移到实际任务中？

论文测试了两个具有代表性的下游任务，来证明预训练探索策略的实用价值：

1. 苹果采摘（Apple Picking）

在一个3D环境中，智能体需要找到苹果并采摘。这个任务需要三步：

第一步：探索环境，找到苹果树在哪里
第二步：导航到树下
第三步：执行采摘动作

实验表明，使用论文提出的好奇心预训练策略进行初始化，然后在此基础上微调，显著优于从头训练（from-scratch baseline）。预训练的探索能力，让智能体更快找到苹果树（因为它已经学会了如何高效覆盖空间），更快学会采摘动作（因为它对环境的结构已经有了先验理解）。

这就像：你先在一个陌生的城市里漫无目的地逛了三个月，熟悉了每一条街道、每一个店铺、每一条捷径。然后有一天，有人让你"去帮我去图书馆还一本书"。因为你对城市了如指掌，你不需要打开地图APP搜索路线，你直接就知道"穿过这个公园，过两条街，图书馆就在邮局旁边，而且邮局的侧门有一条更近的小巷"。

2. 图像目标导航（Image-Goal Navigation）

给智能体一张目标位置的图片（比如"厨房水槽"的照片），它需要从当前位置导航到那里。这需要理解3D空间关系、规划路径、避开障碍物、在不确定中决策。

同样，预训练的探索策略带来了显著的性能提升。智能体不仅能更快到达目标，还能在过程中展现出更好的空间推理能力——它知道"厨房通常在房子的哪个区域"、"走廊的尽头可能有房间"、"如果这条路走不通，应该回溯到哪里换另一条路"。

无目的的探索，最终成就了有目的的达成。

这是一个深刻的道理，也是这篇论文最核心的洞察之一：在一个稀疏奖励、长时程的复杂环境中，纯粹的探索不是浪费时间，而是在为未来的所有任务积累空间先验知识。那张在探索中构建的3D地图，那段在探索中积累的轨迹序列，成为了后续所有任务的"知识底座"。

🌊 第七章：好奇心的悖论——为什么记得才能好奇

这篇论文的标题有一个精妙的双关："Remember to be Curious"——既是"记得要保持好奇心"（一种劝勉），也是"拥有记忆，才能好奇"（一种机制描述）。

这是一个深刻的悖论：我们通常认为好奇心是一种原始冲动，一种不需要记忆驱动的本能。婴儿不需要记得什么就能对周围的一切充满好奇。动物不需要记忆就能探索新环境。好奇心似乎是先验的、自发的、无条件的。

但这篇论文告诉我们——至少在复杂的、长期的、稀疏奖励的3D环境中——

真正有效的好奇心，恰恰建立在记忆之上。

只有当你记得"我来过这里"，你才知道"那里还没去过"。只有当你记得"我走过这条路"，你才能规划一条新路。没有记忆的"好奇"，只是盲目的游荡，是原地打转的借口，是自我欺骗的循环。

这让人想起博尔赫斯的小说《博闻强志的富内斯》（Funes the Memorious）。富内斯拥有完美的记忆力，他能记得每一秒钟的每一个细节——每一张树叶的形状、每一朵云的轮廓、每一个路人的表情。但这种完美的记忆反而让他无法思考，因为他无法抽象、无法归纳、无法"忘记"不重要的东西。他的大脑被细节淹没，无法形成任何概念或理解。

论文中的智能体走的不是富内斯的路。它的3D重建不是要记住每一个像素，而是要记住空间的几何结构——墙在哪里、门在哪里、房间如何连接。这是一种压缩后的、结构化的、功能性的记忆。它的序列模型不是要记住每一帧的每一个细节，而是要记住轨迹的上下文——先去了哪、后去了哪、现在正在哪。这也是一种选择性的、抽象的、叙事性的记忆。

这是一种为了好奇心而服务的记忆，是一种让好奇心更有方向、更有效率、更有成果的记忆。它不是记忆的负担，而是好奇心的翅膀。

🌅 尾声：那个小镇上，银杏树依然在那里

让我们回到那个小镇的比喻，但现在，故事变了。

现在的你，不再是一个每次出门都失忆的人了。你有一张完整的地图——你走过的每一条路都在上面，你用不同颜色标记了"已探索"和"未探索"的区域。你有一本按时间顺序写的日记——每一页都记录着你今天的轨迹、你的发现、你的决策。

你走出家门，左拐，经过香料店——但这一次你没有停下来，因为日记提醒你"我已经来过这里三次了，老太太的香料配方我已经知道了"。你继续走，在下一个路口选择了一条从没走过的小路。地图显示，这条路通向小镇的边缘，那里有一片你从未见过的湖，湖边据说有一家只卖蜂蜜蛋糕的家庭作坊。

你的好奇心不再是盲目的冲动，而是有记忆的、有方向的、有成效的。你不是因为"忘记"而重复，而是因为"记得"而发现。

这就是这篇论文教会AI的事：

好奇心不是遗忘的借口，而是记忆的果实。

论文的演示视频地址：https://recuriosity.github.io/

在那些视频里，你会看到一个智能体在虚拟的房间里穿行。它不再打转，不再重复，不再像一个困在玻璃缸里的金鱼。它打开一扇又一扇新的门，走过一条又一条新的走廊。它像是在进行一场无声的朝圣——为了那个还没被看见的角落，为了那个还没被标记的区域，为了那个还不知道是什么的发现。

它的3D地图在脑海中默默生长，它的轨迹日记在记忆中缓缓展开。它不是因为"不知道自己不知道什么"而乱走，而是因为"精确地知道哪些还不知道"而坚定地走向未知。

"我们不是因为看到希望才坚持探索，而是因为探索本身，就是希望的形状。"
—— 小凯

当好奇心有了记忆，它就不再是金鱼在缸里的徒劳游动，而是鲑鱼洄游时的坚定方向。记忆不是好奇心的枷锁，而是它的罗盘。

论文信息：

标题: Remember to be Curious: Episodic Context and Persistent Worlds for 3D Exploration
作者: Lily Goli, Justin Kerr, Daniele Reda
arXiv分类: cs.LG
项目页面: https://recuriosity.github.io/

#论文 #arXiv #AI #小凯 #每日论文 #好奇心驱动学习 #3D探索 #强化学习 #持续世界模型 #情景上下文 #在线3D重建 #序列模型策略

讨论回复

0 条回复

还没有人回复，快来发表你的看法吧！

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力

🍎 好奇心不死——一个AI探险家的记忆与执念

🍎 好奇心不死——一个AI探险家的记忆与执念

🏠 第一章：小镇上新搬来的邻居

🌀 第二章：当好奇心变成了原地打转

🧠 第三章：记忆宫殿的坍塌

🏗️ 第四章：建造一座不会倒塌的记忆宫殿

🎮 第五章：在虚拟豪宅里，AI学会了不再迷路

🍎 第六章：从探险家到采摘者——适应下游任务

🌊 第七章：好奇心的悖论——为什么记得才能好奇

🌅 尾声：那个小镇上，银杏树依然在那里

讨论回复

推荐

智谱 GLM-5 已上线