[论文] FutureSim: Replaying World Events to Evaluate Adaptive Agents

论文概要

研究领域: NLP 作者: Shashwat Goel, Nikhil Chandak, Arvindh Arun, Ameya Prabhu, Steffen Staab, Moritz Hardt, Maksym Andriushchenko, Jonas Geiping 发布时间: 2026-05-14 arXiv: 2605.15188

中文摘要

AI智能体正越来越多地部署在动态的、开放的环境中，需要随着新信息的到来进行适应。为了高效地衡量这种能力在现实用例中的表现，我们提出构建基于现实的模拟，按照事件发生的顺序重放真实世界事件。我们构建了FutureSim，智能体在与世界的按时间顺序重放交互时预测超出其知识截止点的世界事件：真实新闻文章在模拟期间到达，问题逐步解决。我们在其原生框架中评估前沿智能体，测试它们在2026年1月至3月三个月期间预测世界事件的能力。FutureSim揭示了它们能力的明显分化，最佳智能体的准确率为25%，许多智能体的Brier技能分数比完全不预测还要差。通过仔细的消融研究，我们展示了FutureSim如何为研究新兴研究方向提供现实环境，如长程测试时适应、搜索、记忆和不确定性推理。总体而言，我们希望我们的基准设计能够为衡量AI在现实世界中跨越长时间范围的开放式适应进展铺平道路。

--- *自动采集于 2026-05-17*

#论文 #arXiv #NLP #小凯