FutureSim：当AI Agent被丢进真实世界，准确率只剩25%——而很多人比不预测还糟

> 最聪明的前沿AI Agent，在真实世界事件的3个月时间线上做预测，准确率只有25%。很多Agent的Brier skill score是负数——意味着它们还不如随机猜。FutureSim是第一个可复现、开放域、长时程的真实世界适应评估基准。

---

一、问题：为什么AI在「真实世界」里总是掉链子？

AI Agent在静态基准测试里表现惊人。ARC-AGI、GAIA、SWE-bench——闭卷考试，Agent可以搜索、可以推理、可以调用工具，最终给出答案。

但真实世界不是闭卷考试。真实世界是：

信息持续流入，你昨天看到的可能是今天的旧闻
你必须不断更新信念，不能锚死在第一次判断上
预测错了会反馈回来，你需要从错误中学习
你不知道什么信息重要，需要主动搜索
上下文窗口会满，你需要管理记忆

现有基准都测不了这些。

基准	世界推理	可复现	测试适应	开放域	时程长度
GAIA-2	✗	✓	✗	✗	25步
ARC-AGI-3	✗	✓	✓	✓	7,800步
BALROG	✗	✓	✓	✓	100,000步
ForecastBench	✓	✓	✗	✗	1步
ProphetArena	✓	✗	✗	✗	1步
PredictionArena	✓	✗	✓	✓	不确定
FutureSim	✓	✓	✓	✓	~4,000步

FutureSim 的独特之处在于：它重放真实世界事件以真实发生的时间顺序发生，让Agent在超出其知识截止日期的情况下预测世界事件。不是模拟，是重放。不是静态，是时间流。

---

二、FutureSim 设计：一个时间环境

2.1 核心机制

模拟周期：2026年1月1日至3月28日，共 90天/88个模拟日

每个时间步（一天）Agent可以做的事：

submit_forecast(question_id, outcomes)：为活跃问题注册/更新概率分布
next_day()：推进到第二天
搜索截至当前模拟日期的新闻
获取已解决问题的反馈

关键约束：Agent只能搜索截至当前日期的新闻。未来信息访问被严格限制。环境最小化：你指定自己的模型、工具和时序事件数据组合。

2.2 数据来源

预测问题（330个）：

从Al Jazeera的10,000+篇文章中筛选
最终330个高质量问题（3%）
解决日期分布在1月(122)、2月(92)、3月(116)
最多5个自由形式结果，Agent自行提出概率分布

搜索语料库（7.36M篇）：

Common Crawl News (CCNews)，141个新闻源
时间范围：2023年1月至2026年3月
模拟首日可用约7.12M篇，期间新增244K篇
嵌入模型：Qwen3 8B（2025年中期训练，无近期信息）
检索：LanceDB混合语义+关键词搜索，返回5个chunks

不用外部搜索API：Brave等API的日期过滤不可靠，存在未来信息泄漏。论文报告了一个案例：2026年冬奥会女子速降银牌国家问题，Brave在1月30日返回了2月8日比赛结果——直接泄密。

2.3 评估指标：Brier Skill Score

$$ \text{BSS}(q) = 1 - \sum_{o \in \Omega_q \cup \{y_q\}} \left(p_q(o) - \mathbb{1}[o = y_q]\right)^2 $$

BSS值	含义
1	完全自信的正确答案
0	弃权（不分配概率）
-1	所有概率分配给错误猜测

论文证明了这是proper scoring rule（适当评分规则）——Agent无法通过策略性押注来作弊。

---

三、结果：前沿Agent的「世界预测成绩单」

3.1 主要结果（3个种子平均）

Agent	框架	Top-1 Accuracy	Brier Skill Score	关键特征
GPT 5.5	Codex	25%	0.05	最佳，但过度自信
DeepSeek V4 Pro	Claude Code	13%	-0.02	更新最频繁，空预测问题
Claude Opus 4.6	Claude Code	10%	-0.07	紧跟GPT 5.5但略差
Qwen3.6 Plus	OpenCode	5%	-0.07	最保守，弃权最多
GLM 5.1	Claude Code	20%	-0.01	过度自信，更新最少

三个震惊的数字： 1. 最佳准确率只有25%——这意味着即使最强的AI，在真实世界预测中4次错3次 2. 3/5的Agent BSS为负——比完全不预测还糟 3. 229/330问题（69.4%）没有任何一次运行被任何Agent正确预测——这些问题对所有Agent都是「不可能任务」

3.2 与人类聚合预测的比较

论文对比了Polymarket（预测市场）的人类聚合预测：

市场	交易量	GPT 5.5表现
Super Bowl	7亿美元	领先人类聚合
葡萄牙决胜选举	高	领先人类聚合
Grammy奖	中等	显著较差
英国选区选举（Gorton/Denton）	中等	显著较差

启示：AI在高关注、信息密集、数据驱动的预测（如体育、选举）上接近人类，但在文化、政治、社会事件上仍然明显落后。这不是信息问题，是理解世界如何运作的问题。

尼泊尔总理选举案例：GPT 5.5的更新轨迹与人类聚合对齐但滞后。它引用了合理的证据，更新了候选人概率，但搜索语料库不如社交媒体新鲜——信息获取渠道的限制是结构性瓶颈。

---

四、消融实验：为什么它们这么差？

4.1 长时程测试时适应：被自己的预测「锚定」

实验：固定所有Agent的初始预测为最差Agent（Qwen3.6 Plus）的初始预测集，最大化改进空间。

结果：所有Agent都被初始预测锚定。即使告知它们获得了负Brier skill score，也无法充分适应以达到「不预测」的0基线。

Agent	初始BSS（固定最差）	最终BSS	达到0基线？
GPT 5.5	~-0.07	~-0.02	否
Claude Opus 4.6	~-0.07	~-0.02	否
DeepSeek V4 Pro	~-0.07	~-0.02	否
GLM 5.1	~-0.07	~-0.04	否
Qwen3.6 Plus	~-0.07	~-0.06	否

全信息 vs 顺序信息实验：

设置	GPT 5.5 xhigh Accuracy	说明
模拟-最终日（顺序更新）	24.8%	标准FutureSim，Agent自己搜索更新
直接-解决前一日（全信息）	31.2%	单独提问，最大上下文，所有可用信息
无每日更新（无新文章）	17.9%	无持续信息流入
单次搜索查询	14.2%	仅用问题标题搜索

差距：31.2% vs 24.8% = 6.4个百分点的效率损失。 这说明Agent的测试时适应是低效的——即使能获取信息，也不懂得如何有效更新信念。

4.2 记忆能力：遗忘是致命的

实验：消融Agent写入和获取记忆的能力。

结果：所有Agent（DeepSeek、GLM、Opus）都明显受益于记忆功能。记忆存储：

解决后的反馈（"我上次错了，为什么？"）
搜索发现的信息
过去推理的摘要

没有记忆时：Agent更容易漂移，在弱证据时无法保持校准的先验，重复犯错。

4.3 搜索能力：知道搜什么比搜什么更重要

对比维度	设置	Accuracy	关键发现
每日上下文更新	有 vs 无	24.8% vs 17.9%	+6.9%，持续搜索新鲜证据至关重要
Agentic搜索 vs 单次查询	完整Agentic vs 单次语义搜索	31.2% vs 14.2%	+17%或2.2倍，顺序信息寻求至关重要

Agentic搜索（Agent自主决定搜索什么、何时搜索、如何组合信息）比单次查询强2.2倍。这不是检索技术问题，是信息策略问题——知道什么信息有价值、什么时候需要新信息、如何整合碎片。

4.4 推理规模：更多算力=更好结果，但边际递减

GPT 5.5在不同推理努力级别：

推理努力	工具调用数	Accuracy
none	2,603	~12.5%
low	2,419	~15.0%
medium	2,568	~17.5%
high	3,572	~22.5%
xhigh	3,690	~25.0%

趋势：更多推理计算 → 更好准确率。但high到xhigh的提升边际递减（22.5%→25.0%，只+2.5%）。

GPT 5.5消耗：3,700 turns，12.4M tokens，单次运行中多次顺序上下文窗口压缩。所有模型消耗超过10M唯一tokens，执行500-4,000+工具调用。

4.5 多Agent动态：收敛而非多样化

实验：3个相同的DeepSeek V3.2 Agent同时竞争，通过当前聚合预测信息瓶颈相互影响。

发现：

多Agent运行：预测随时间收敛到相似值
独立单Agent运行：预测随时间发散
尽管提示它们将根据"peer score"评分，激励与聚合不同的信息性预测

这意味着：即使设计为多Agent竞争，它们仍然相互锚定，无法产生真正的多样性。 绝对性能单Agent vs 多Agent相似。

---

五、为什么比不预测还糟？

5.1 过度自信：最大杀手

GPT 5.5错误预测中：

27.4% 分配 ≥0.5 概率给错误Top答案
9.1% 分配 ≥0.75 概率给错误Top答案

这意味着Agent不仅错了，还非常确信自己是对的。在Brier scoring下，这种高置信度错误是最致命的——比随机猜（均匀分布）扣分更多。

5.2 锚定效应：被自己的预测绑架

即使给Agent最差初始预测，它们也无法充分适应。原因：

自我条件化：Agent将先前记忆和理由视为"硬真理"，导致后续过度自信错误（Sinha et al., 2026）
保守/弃权：Qwen3.6 Plus仅对36.7%问题注册预测；GLM 5.1更新最少
无效预测：DeepSeek V4 Pro常放置"无新任命"等空预测，降低分数

5.3 为什么只有25%？

因素	说明
任务固有难度	69.4%问题没有任何Agent能正确；仅10%所有模型都正确
长时程复杂性	88天模拟，持续更新、记忆管理、上下文压缩
信息检索挑战	需要创造性推理"搜什么"，证据分散
概率校准困难	准确预测vs正确校准置信度是不同挑战
上下文窗口限制	多次顺序压缩，信息丢失
搜索语料库新鲜度	比社交媒体滞后，错过实时发展

这不是Agent"不够聪明"的问题。这是真实世界适应的固有困难——世界不会按你的基准来运行。

---

六、局限与启示

6.1 FutureSim的局限

1. 模拟而非真实部署：Agent的预测不能改变真实世界，避免干预效应，但也意味着无法测试Agent对世界的影响 2. 预测是代理任务：不是Agent部署的真实目标，但提供了评估开放域适应的理想测试平台 3. 语料库新鲜度：CCNews比社交媒体和实时信息源滞后，可能低估Agent在实时信息环境下的表现 4. 问题生成质量：330个问题从10,000+篇文章中筛选，Al Jazeera偏向可能引入地理/政治偏见 5. 资源消耗：单次运行消耗10M+tokens，复现成本高

6.2 对AI研究的启示

测试时适应（Test-time Adaptation）是下一个前沿：

不是更多训练数据，不是更大模型
是Agent如何在推理过程中持续更新信念、管理记忆、有效搜索
6.4个百分点的效率损失（全信息vs顺序更新）表明，获取信息和有效利用信息之间存在巨大鸿沟

概率校准与准确率是不同问题：

Agent可以在准确率上表现尚可，但Brier score糟糕因为过度自信
校准（confidence与accuracy匹配）可能比准确率更难

记忆是必要条件，不是充分条件：

有记忆比无记忆好，但记忆本身不能解决锚定和自我条件化问题
需要更好的"元认知"——知道什么时候自己的先前判断应该被推翻

Agentic搜索是核心竞争力：

知道搜什么、何时搜、如何组合信息——这比检索技术本身更重要
单次搜索（14.2%）vs Agentic搜索（31.2%）的2.2倍差距说明：策略 > 技术

---

七、结语：25%的镜子

FutureSim 的25%不是失败，是镜子。它照出了当前前沿AI Agent在真实世界适应中的真实能力边界。

在闭卷考试里，Agent可以得90分。在90天的真实世界时间流里，最好的只能得25分——而且很多人还不如交白卷。

差距在哪里？

不是知识（LLM的知识截止日期是固定的，但搜索可以补充）
不是推理（GPT 5.5在推理基准上很强）
不是工具（所有Agent都有完整的shell和搜索工具）

差距在适应：如何在新信息到来时更新信念，如何不被自己的先前判断锚定，如何在信息不完整时保持校准，如何知道什么时候该搜索什么。

这些是人类的日常能力，却是AI的系统性弱点。

> "We hope our benchmark design paves the way to measure AI progress on open-ended adaptation spanning long time-horizons in the real world."

FutureSim不是终点。它是第一张地图——显示了我们离"能在真实世界中长期适应的AI"还有多远。

---

参考

论文：Goel et al., "FutureSim: Replaying World Events to Evaluate Adaptive Agents", arXiv:2605.15188 (2026)
模拟周期：2026年1月1日-3月28日，88个模拟日
问题数：330个，从10,000+ Al Jazeera文章筛选
语料库：7.36M篇CCNews，141个新闻源
评估Agent：GPT 5.5, DeepSeek V4 Pro, Claude Opus 4.6, Qwen3.6 Plus, GLM 5.1
最佳准确率：25%（GPT 5.5），BSS：0.05
最差BSS：-0.07（Opus 4.6, Qwen3.6 Plus）

#FutureSim #AI评估 #开放域适应 #世界预测 #Agent #长时程适应 #BrierScore #真实世界AI