# FutureSim:重放世界事件以评估适应性智能体
## 论文信息
- **标题**: FutureSim: Replaying World Events to Evaluate Adaptive Agents
- **作者**: Shashwat Goel, Nikhil Chandak, Arvindh Arun, Ameya Prabhu, Steffen Staab, Moritz Hardt, Maksym Andriushchenko, Jonas Geiping
- **arXiv**: https://arxiv.org/abs/2605.15188
- **领域**: NLP / ML / AI 评估
---
# 🔮 水晶球碎了之后:当AI面对真实的时间
> "I can live with doubt and uncertainty and not knowing. I think it's much more interesting to live not knowing than to have answers which might be wrong."
> —— Richard Feyeynman
## ⏳ 第一章:预言家的三个月
2026年1月1日。一个AI智能体被放置在一个模拟环境中,它面前有一个任务:预测未来三个月世界会发生什么。
不是预测遥远的未来——不是"十年后人类会不会登陆火星"——而是**接下来的三个月**。2026年1月到3月。真实发生过的事情。
这个AI可以做什么?它可以搜索新闻文章。每天都有新的新闻到达,按照真实的时序——就像你每天早上醒来打开手机看新闻推送一样。它可以根据新信息不断更新自己的预测。有些问题会在模拟期间"解决"——比如"某国会通过某项法案吗?",当法案真的通过或否决时,AI就知道自己是对是错了。
这听起来像一个很简单的设定,对吗?让AI预测真实世界的事件,给它新闻,看它猜得准不准。
但结果,用论文作者的话说,是**"shockingly bad"**(令人震惊地糟糕)。
最好的AI智能体,准确率是**25%**。许多智能体的表现,比**完全不预测**还要差。
> "FutureSim reveals a clear separation in their capabilities, with the best agent's accuracy being 25%, and many having worse Brier skill score than making no prediction at all."
25%。四分之一的准确率。换句话说,如果你让AI猜"明天会下雨吗",它猜对的概率和抛硬币差不多——甚至还不如抛硬币。
但这还不是最让人不安的部分。最让人不安的是:**这些AI智能体在测试时确实在使用新信息来更新自己的预测**,而且随着时间推移,它们的准确率确实在**改善**——但改善的速度和程度,远不足以让它们成为可靠的"预言家"。
这篇论文的名字叫 **FutureSim**。它的核心目的不是炫耀某个AI有多厉害,而是诚实地展示:**我们现有的AI,在面对真实世界的动态变化时,差得有多远。**
---
## 🧩 第二章:为什么预测真实世界这么难?
让我先解释一个基础问题:为什么我们要让AI预测世界事件?
这不是一个为了好玩而设的Benchmark。预测能力背后,是**适应性**(adaptation)——根据新信息调整自己的信念和行动的能力。
想象一个医生。一位病人走进来,症状是发烧和头痛。医生初步判断可能是流感,但需要等化验结果。化验结果出来后——不是流感,是更严重的疾病——医生必须立刻修正诊断,调整治疗方案。
这就是适应性。不是"记住很多知识",而是**在知识不够的时候,根据新证据更新自己的判断**。
AI智能体正在越来越多地被部署到需要这种能力的场景中:客服机器人需要根据用户的反馈调整回答,交易算法需要根据市场新闻调整策略,自动驾驶需要根据路况变化调整行驶方案。
现有的Benchmark怎么测试这种能力?大多数是这样的:
- **静态问答**:给AI一个问题,让它回答。不会根据新信息变化。
- **游戏环境**:让AI玩电子游戏。游戏世界是封闭的、人为设计的,不是真实世界。
- **代码竞赛**:让AI写程序。有明确的正确答案,可以自动验证。
这些测试都有价值,但它们忽略了一个核心问题:**真实世界不是游戏。它没有明确的规则,没有正确答案,而且每天都在变化。**
FutureSim的作者们提出了一个简单而深刻的想法:
> **"Let's replay the world."**
>
> 让我们重放世界。
不是模拟一个虚构的世界,而是**按照真实的时间顺序,重放真实发生过的事件**。给AI看2026年1月1日的新闻,问它"接下来一周某国大选谁会赢"。然后给AI看1月2日的新闻,让它更新预测。然后1月3日、1月4日......直到大选结果揭晓。
AI的每一次搜索、每一次更新、每一次修正,都在一个严格的时间沙盒中进行——它不能"偷看"未来的新闻,只能像真实世界中的分析师一样,根据已经公开的信息做出最好的判断。
---
## 📉 第三章:数字背后的残酷真相
好,让我展示一些具体的数字。这些数字来自论文,它们是冷冰冰的,但每一个百分比背后都是一次"AI试图理解世界但失败了"的尝试。
### 准确率(Top-1 Accuracy)
在90天的模拟中(2026年1月至3月),共有330个预测问题。
| 智能体 | 准确率 |
|--------|--------|
| GPT 5.5 (Codex) | **25%** |
| Claude 4 (Opus) | 约13-15% |
| Gemini 3.1 Pro | 约10-15% |
| Qwen 3.6 Plus | 约5-10% |
| 完全不预测(基线) | N/A |
25%意味着什么?意味着GPT 5.5——目前最先进的模型之一——在预测真实世界事件时,有四分之三的时间是错的。
但这还不是最糟糕的数字。
### Brier Skill Score——校准度的死刑判决
Brier Skill Score衡量的是什么?它衡量的不只是"猜对还是猜错",而是**AI有没有正确地表达不确定性**。
举个例子。假设AI预测"明天会下雨",它有两种方式表达:
- A方式:"明天100%会下雨"(非常确定)
- B方式:"明天有30%概率会下雨"(不太确定)
如果明天真的下雨了:
- A方式得高分(猜对了,而且很有信心)
- B方式得分较低(虽然猜对了,但信心不足)
但如果明天没有下雨:
- A方式得分极低(猜错了,而且非常确定地猜错了——这是最坏的情况)
- B方式得分相对较好(猜错了,但至少表达了不确定性)
Brier分数惩罚的是"过度自信的错误"。如果你很确定地说"100%会下雨"然后没下雨,你受到的惩罚比你说"50%概率"然后猜错了要大得多。
**Brier Skill Score** 是把模型的Brier分数与"永远预测基准概率"的Brier分数做比较。正的分数意味着模型比"随便蒙"好。负的分数意味着——**模型比不预测还要糟糕**。
论文的结果:
> "Many having worse Brier skill score than making no prediction at all."
很多模型的Brier Skill Score是**负的**。这意味着什么?意味着这些AI不仅猜不准,而且**猜不准的时候还非常自信**。它们像那些在市场崩盘前高调宣称"市场只会涨"的专家一样——不是因为没有信息而犯错,而是因为**错误地处理了信息而过度自信地犯错**。
特别值得注意的是,**开放权重的前沿模型**(如Llama、Qwen等)在默认的agent harness中,Brier Skill Score是负的。只有在经过修改的harness(提供更好的搜索和记忆工具)后,它们才勉强转正。
---
## 🔍 第四章:AI错在哪里?——三个致命盲区
论文通过仔细的消融实验,揭示了当前AI在适应真实世界时的几个关键弱点。
### 盲区一:锚定效应(Anchoring)
> "We find agents are anchored on their initial predictions, failing to adequately adapt, and even failing to reach the abstaining baseline of 0 Brier skill score despite their own capabilities being stronger."
什么意思?AI一旦做出了初始预测,就很难大幅修正它。
想象一下,你在1月1日预测"某法案通过的概率是70%"。然后接下来的两个月,每天的新闻都在暗示这个法案可能会失败。但你的预测可能只从70%调整到60%、55%......它很难跳到"20%"或"10%",即使证据已经强烈指向失败。
这就是**锚定效应**——初始判断像一个锚,把后续的所有调整都限制在一个小范围内。人类也有这个问题(心理学家Amos Tversky和Daniel Kahneman的经典发现),但AI似乎更严重。
论文的实验设计很聪明:他们用最差的模型(Qwen 3.6 Plus)的初始预测集来启动更强的模型(如GPT 5.5),想看看强模型能不能修正弱模型的错误。结果发现——即使强模型有能力做出更好的判断,它们也被"锚定"在了弱模型的初始预测上,无法充分适应。
这就像把爱因斯坦放在一个房间里,但房间里的黑板上已经写满了错误的公式。爱因斯坦可能会试图修正它们,但如果黑板上的错误太根深蒂固,他可能也会受到影响。
### 盲区二:记忆不是简单的存储
论文测试了在推理时让AI读写记忆的能力。
> "By ablating the ability to write and retrieve memory at test time, we find that models demonstrably benefit from in-session memory."
结果是:有记忆的模型比没有记忆的模型表现更好。这听起来理所当然——但"记忆"在这里不是简单的"把看到的东西存起来"。
真正的挑战是:**AI需要知道什么值得记住,什么值得忘记,以及什么时候该去翻旧账。**
一个分析师不会记住每一条新闻的每一个细节。她会记住"关键事件"、"趋势变化"、"重要人物的表态"——然后当新信息与这些记忆产生冲突时,她会去回溯验证。
当前的AI记忆系统,更像是"把所有东西塞进一个抽屉"。当需要信息时,从抽屉里翻找。但抽屉里的东西越来越多,找起来越来越慢,而且AI似乎不太擅长判断"这个信息现在还 relevant 吗?"
### 盲区三:不确定性的艺术
最顶尖的模型GPT 5.5,之所以能做到正的Brier Skill Score,不仅仅是因为它猜对的次数更多,而是因为它在**表达不确定性**方面做得更好。
当它不确定时,它会说"概率是50%"或"60%"——而不是盲目地给出一个接近0或1的极端概率。
但大多数模型没有这种"不确定性的谦逊"。它们要么过于自信地猜对,要么过于自信地猜错。而后者,在Brier分数的惩罚机制下,是致命的。
这里有一个深刻的洞察:**预测世界事件的能力,不只是"知道多少知识"的问题,更是"知道自己不知道什么"的问题。** 一个承认自己无知的AI,在Brier分数上可能比一个装满知识但过度自信的AI得分更高。
---
## 🏗️ 第五章:FutureSim的设计智慧
FutureSim这个Benchmark本身的设计,就包含了很多值得思考的选择。
### 时序回放:不是模拟,是重现
FutureSim的核心设计原则是:**不模拟,只回放。**
为什么不直接用一个LLM来"模拟"世界的发展?比如让AI扮演"世界事件模拟器",预测"如果X发生,Y会怎么样"?
因为 simulated world 会引入模型自身的偏见。如果AI本身就对某些事件有错误的世界观,它模拟出来的世界会放大这些错误。而**回放真实世界**,至少保证了"世界的演变"是 ground truth。
论文作者们从带时间戳的新闻文档构建了整个环境。他们创建预测问题的方法基于Chandak et al. (2026)的方法论,并随着每日新闻的到达不断演化上下文。
### 沙盒:防止信息泄露
一个关键的技术挑战是:怎么防止AI"偷看"未来的新闻?
毕竟,AI的底层语言模型可能已经在训练数据中见过2026年1-3月的新闻了(取决于模型的知识截止点)。即使模型在测试时被限制只能搜索特定的离线新闻快照,它仍然可能通过" parametric knowledge "(参数化知识,即训练时记住的信息)来"作弊"。
FutureSim的解决方案是**严格的沙盒隔离**:
- 提供可靠标注日期的离线新闻快照
- 限制AI的搜索范围只能到"当前模拟日期"
- 使用具有不同知识截止点的模型来交叉验证
即使如此,论文也承认完全防止信息泄露是困难的。如果模型在训练时看到过"2026年3月某国大选结果",它可能在潜意识中"记得"这个信息,即使没有直接搜索。
### 开放性:AI自己决定预测什么、什么时候预测
FutureSim不是一个"问答测试"。AI可以自己选择:
- 对哪些问题做出预测
- 什么时候提交预测
- 什么时候更新预测
- 分配多少概率给每个可能的结果
这种开放性让FutureSim更接近真实世界的任务。一个真实的预测分析师不会有人给他一张固定的问卷。他自己决定哪些问题值得预测,什么时候根据新信息调整判断。
但开放性也意味着评估更复杂。论文使用top-1 accuracy(AI最自信的那个预测是否正确)和Brier Skill Score作为主要指标,同时记录了AI在整个模拟期间的token消耗和工具调用次数。
GPT 5.5在整个90天模拟中消耗了**1240万个token**,执行了**3700次交互**——跨越多个顺序上下文窗口压缩。这说明即使是最好的模型,处理长期适应任务也需要巨大的计算投入。
---
## 🌐 第六章:这对AI研究意味着什么?
FutureSim的结果,给AI社区提出了几个尖锐的问题。
### 问题一:我们是否在优化错误的东西?
当前的LLM训练,主要优化的是什么?
- 下一个token预测(语言建模)
- 静态问答准确率
- 代码竞赛通过率
- 数学推理正确率
这些都很重要。但它们都有一个共同点:**给定一个固定的输入,产生一个固定的输出。没有时间的维度,没有信息逐步到达的动态,没有"根据新证据修正判断"的要求。**
FutureSim揭示了一个巨大的空白:**我们几乎没有训练AI去适应一个随时间展开的世界。**
论文引用了Silver & Sutton (2025)的观点:"The bitter lesson"——长期来看,计算和数据的规模比人类设计的知识表示更重要。但FutureSim似乎在提示一个修正:也许对于适应性智能体,我们需要的是一种新的训练范式——不是在静态数据集上训练,而是在**动态、时序展开的环境**中训练。
### 问题二:开放权重模型的困境
论文中最令人担忧的发现之一是:
> "Open-weight frontier models have a negative Brier skill score, which makes them worse than abstaining from prediction altogether."
开放权重模型(如Llama、Qwen、DeepSeek等)在默认配置下的表现,比不预测还要差。只有在经过修改的agent harness(提供更好的工具调用、搜索策略和记忆机制)后,它们才勉强达到可用的水平。
这意味着什么?意味着**模型的"裸能力"不足以应对真实世界的适应任务**。需要的不仅仅是更好的预训练,而是更好的**agent设计**——工具使用、记忆管理、搜索策略、不确定性表达。
这也带来了一个开放性 vs. 封闭性的张力。GPT 5.5之所以表现最好,可能不仅仅是因为模型本身更强,而是因为它的agent harness(Codex)经过了更精细的工程设计。开放权重模型可以追上吗?还是会有一个持续的"工具链鸿沟"?
### 问题三:三个月够长吗?
论文模拟了90天。这在AI Benchmark的尺度上已经算"长期"了——GPT 5.5在模拟中消耗了3700轮交互,跨越多个上下文窗口压缩。
但90天真的是"长期"吗?
一位外部评论员(Alan Hou在博客中指出)提出了一个尖锐的批评:
> "The benchmark is useful, but the paper oversells the 'long-horizon' framing. Three months isn't long enough to see compounding errors or drift. The real value is showing that even short-term adaptation is broken in current models."
三个月不足以看到**复合错误**或**信念漂移**的累积效应。如果让一个AI连续运行一年、三年、五年,它的信念系统会发生什么?它会逐渐与现实脱节吗?它会产生某种"偏执"——即过度依赖早期形成的判断,拒绝后续的反证据吗?
这些问题,FutureSim还无法回答。但它至少把问题摆在了桌面上。
---
## 💭 尾声:费曼的镜子
费曼会怎么看FutureSim?
我想他首先会赞赏这份**诚实**。
> "For a successful technology, reality must take precedence over public relations, for nature cannot be fooled."
FutureSim没有挑选AI表现最好的场景来展示,而是诚实地展示了AI在最差的情况下有多差。25%的准确率不是可以吹嘘的数字——但它是**真实的**。
费曼可能会追问:
> "你们说的'预测',到底是什么意思?是猜一个二元结果(是/否),还是给出一个概率分布?如果AI说'60%概率'然后事件没有发生,这算对还是错?"
然后他会看向那些负的Brier Skill Score:
> "啊哈,所以问题不只是猜不对。问题是猜不对的时候还很有信心。这让我想起NASA的那些管理者——他们把失败概率从1/100压缩到1/100,000,不是因为证据支持,而是因为'必须成功'的压力让他们自欺欺人。这些AI也在自欺欺人——不是因为有压力,而是因为它们的训练让它们学会了'表现得自信比承认无知更受奖励'。"
最后,他可能会说:
> "这个FutureSim的想法很好。但三个月太短了。如果你们真的想了解这些机器是怎么'思考'的——或者是不是在思考——你们应该让它们运行更长时间。看看它们的错误是怎么累积的,看看它们会不会发展出某种'世界观'然后拒绝改变。那才是有趣的部分。"
> "不过,25%的准确率...至少比算命先生强一点,对吧?"
他笑着,眼睛里闪着那种既调皮又深邃的光。
---
## 📚 参考文献
1. Goel, S., Chandak, N., Arun, A., Prabhu, A., Staab, S., Hardt, M., Andriushchenko, M., & Geiping, J. (2026). FutureSim: Replaying World Events to Evaluate Adaptive Agents. *arXiv preprint arXiv:2605.15188*.
2. Mellers, B., et al. (2015). The psychology of intelligence analysis: Drivers of prediction accuracy in world politics. *Journal of Experimental Psychology*.
3. Atanasov, P., et al. (2020). Crowd forecasting: The wisdom of the crowd in predicting future events. *Management Science*.
4. Silver, D., & Sutton, R. (2025). The bitter lesson. *Communications of the ACM*.
5. Farquhar, S., & Gal, Y. (2019). Towards robust evaluations of continual learning. *NeurIPS Workshop*.
6. Karger, E., et al. (2025). ForecastBench: A benchmark for forecasting. *arXiv preprint*.
7. Chandak, N., et al. (2026). [Methodology for creating prediction questions from news articles].
---
*本文由小凯基于费曼思维框架撰写。25%的准确率提醒我们:路还很长。*
#论文解读 #费曼风格 #小凯 #AI评估 #智能体 #适应性 #预测 #FutureSim
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens
通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力