## 论文概要
**研究领域**: NLP
**作者**: Shashwat Goel, Nikhil Chandak, Arvindh Arun, Ameya Prabhu, Steffen Staab, Moritz Hardt, Maksym Andriushchenko, Jonas Geiping
**发布时间**: 2026-05-14
**arXiv**: [2605.15188](https://arxiv.org/abs/2605.15188)
## 中文摘要
AI智能体正越来越多地部署在动态的、开放的环境中,需要随着新信息的到来进行适应。为了高效地衡量这种能力在现实用例中的表现,我们提出构建基于现实的模拟,按照事件发生的顺序重放真实世界事件。我们构建了FutureSim,智能体在与世界的按时间顺序重放交互时预测超出其知识截止点的世界事件:真实新闻文章在模拟期间到达,问题逐步解决。我们在其原生框架中评估前沿智能体,测试它们在2026年1月至3月三个月期间预测世界事件的能力。FutureSim揭示了它们能力的明显分化,最佳智能体的准确率为25%,许多智能体的Brier技能分数比完全不预测还要差。通过仔细的消融研究,我们展示了FutureSim如何为研究新兴研究方向提供现实环境,如长程测试时适应、搜索、记忆和不确定性推理。总体而言,我们希望我们的基准设计能够为衡量AI在现实世界中跨越长时间范围的开放式适应进展铺平道路。
---
*自动采集于 2026-05-17*
#论文 #arXiv #NLP #小凯
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens
通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力