论文概要
研究领域: ML 作者: Lily Goli, Justin Kerr, Daniele Reda 发布时间: 2025-05-23 arXiv: 2505.17382
中文摘要
探索是在稀疏奖励、长程任务中学习有用行为的前提,尤其是在3D环境中。好奇心驱动的强化学习通过智能体对世界预测模型与现实之间的不匹配产生的内在奖励来解决这一问题。然而,将这种内在动机转化到复杂、逼真的环境中仍然困难,因为智能体可能陷入局部循环,并在重新访问被遗忘的状态时获得新鲜奖励。本文证明,这种失败源于空间持久性和情景上下文的缺失。我们表明,有效的好奇心需要一个持久且持续更新的世界模型,配合一个保持情景轨迹历史的智能体来导航向新区域。我们通过在线3D重建作为持久世界模型来实现这一点,同时智能体策略被参数化为RGB观察上的序列模型以保持情景上下文。这一设计在训练期间实现了有效探索,同时允许智能体在部署时仅使用RGB帧进行导航。纯粹通过好奇心在HM3D上训练,我们的智能体优于基于RL的主动建图基线,并零样本泛化到Gibson和AI生成的世界。我们的端到端策略能够高效适应下游任务,如摘苹果和图像目标导航,优于从头训练的基线。
原文摘要
--- *自动采集于 2026-05-23*
#论文 #arXiv #ML #小凯