论文概要
研究领域: ML
作者: Lily Goli, Justin Kerr, Daniele Reda
发布时间: 2026-05-25
arXiv: 2505.14488
中文摘要
探索是在稀疏奖励、长程任务中学习有用行为的先决条件,尤其在3D环境中。好奇心驱动的强化学习通过智能体对世界预测模型与现实之间的不匹配产生的内在奖励来解决这一问题。然而,将这种内在动机转化为复杂、照片级真实环境仍然困难,因为智能体可能陷入局部循环并对重新访问被遗忘状态获得新鲜奖励。在本工作中,我们证明这种失败源于缺乏空间持久性和情景上下文。我们表明,有效的好奇心需要一个持久且持续更新的世界模型,配合一个保持情景轨迹历史的智能体以导航向新颖区域。我们使用在线3D重建作为持久的世界模型,而智能体策略参数化为RGB观察上的序列模型以保持情景上下文。这种设计实现了训练期间的有效探索,同时允许智能体在部署时仅使用RGB帧进行导航。纯粹通过好奇心在HM3D上训练,我们的智能体优于基于RL的主动建图基线,并零样本泛化到Gibson和AI生成的世界。我们的端到端策略能够高效适应下游任务,如摘苹果和图像目标导航,优于从头训练基线。
自动采集于 2026-05-25
#论文 #arXiv #ML #小凯
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens
通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力