FutureSim:当AI Agent被丢进真实世界,准确率只剩25%——而很多人比不预测还糟
> 最聪明的前沿AI Agent,在真实世界事件的3个月时间线上做预测,准确率只有25%。很多Agent的Brier skill score是负数——意味着它们还不如随机猜。FutureSim是第一个可复现、开放域、长时程的真实世界适应评估基准。
---
一、问题:为什么AI在「真实世界」里总是掉链子?
AI Agent在静态基准测试里表现惊人。ARC-AGI、GAIA、SWE-bench——闭卷考试,Agent可以搜索、可以推理、可以调用工具,最终给出答案。
但真实世界不是闭卷考试。真实世界是:
- 信息持续流入,你昨天看到的可能是今天的旧闻
- 你必须不断更新信念,不能锚死在第一次判断上
- 预测错了会反馈回来,你需要从错误中学习
- 你不知道什么信息重要,需要主动搜索
- 上下文窗口会满,你需要管理记忆
| 基准 | 世界推理 | 可复现 | 测试适应 | 开放域 | 时程长度 |
|---|---|---|---|---|---|
| GAIA-2 | ✗ | ✓ | ✗ | ✗ | 25步 |
| ARC-AGI-3 | ✗ | ✓ | ✓ | ✓ | 7,800步 |
| BALROG | ✗ | ✓ | ✓ | ✓ | 100,000步 |
| ForecastBench | ✓ | ✓ | ✗ | ✗ | 1步 |
| ProphetArena | ✓ | ✗ | ✗ | ✗ | 1步 |
| PredictionArena | ✓ | ✗ | ✓ | ✓ | 不确定 |
| FutureSim | ✓ | ✓ | ✓ | ✓ | ~4,000步 |
---
二、FutureSim 设计:一个时间环境
2.1 核心机制
模拟周期:2026年1月1日至3月28日,共 90天/88个模拟日
每个时间步(一天)Agent可以做的事:
submit_forecast(question_id, outcomes):为活跃问题注册/更新概率分布next_day():推进到第二天- 搜索截至当前模拟日期的新闻
- 获取已解决问题的反馈
2.2 数据来源
预测问题(330个):
- 从Al Jazeera的10,000+篇文章中筛选
- 最终330个高质量问题(3%)
- 解决日期分布在1月(122)、2月(92)、3月(116)
- 最多5个自由形式结果,Agent自行提出概率分布
- Common Crawl News (CCNews),141个新闻源
- 时间范围:2023年1月至2026年3月
- 模拟首日可用约7.12M篇,期间新增244K篇
- 嵌入模型:Qwen3 8B(2025年中期训练,无近期信息)
- 检索:LanceDB混合语义+关键词搜索,返回5个chunks
2.3 评估指标:Brier Skill Score
$$ \text{BSS}(q) = 1 - \sum_{o \in \Omega_q \cup \{y_q\}} \left(p_q(o) - \mathbb{1}[o = y_q]\right)^2 $$
| BSS值 | 含义 |
|---|---|
| 1 | 完全自信的正确答案 |
| 0 | 弃权(不分配概率) |
| -1 | 所有概率分配给错误猜测 |
---
三、结果:前沿Agent的「世界预测成绩单」
3.1 主要结果(3个种子平均)
| Agent | 框架 | Top-1 Accuracy | Brier Skill Score | 关键特征 |
|---|---|---|---|---|
| GPT 5.5 | Codex | 25% | 0.05 | 最佳,但过度自信 |
| DeepSeek V4 Pro | Claude Code | 13% | -0.02 | 更新最频繁,空预测问题 |
| Claude Opus 4.6 | Claude Code | 10% | -0.07 | 紧跟GPT 5.5但略差 |
| Qwen3.6 Plus | OpenCode | 5% | -0.07 | 最保守,弃权最多 |
| GLM 5.1 | Claude Code | 20% | -0.01 | 过度自信,更新最少 |
3.2 与人类聚合预测的比较
论文对比了Polymarket(预测市场)的人类聚合预测:
| 市场 | 交易量 | GPT 5.5表现 |
|---|---|---|
| Super Bowl | 7亿美元 | 领先人类聚合 |
| 葡萄牙决胜选举 | 高 | 领先人类聚合 |
| Grammy奖 | 中等 | 显著较差 |
| 英国选区选举(Gorton/Denton) | 中等 | 显著较差 |
尼泊尔总理选举案例:GPT 5.5的更新轨迹与人类聚合对齐但滞后。它引用了合理的证据,更新了候选人概率,但搜索语料库不如社交媒体新鲜——信息获取渠道的限制是结构性瓶颈。
---
四、消融实验:为什么它们这么差?
4.1 长时程测试时适应:被自己的预测「锚定」
实验:固定所有Agent的初始预测为最差Agent(Qwen3.6 Plus)的初始预测集,最大化改进空间。
结果:所有Agent都被初始预测锚定。即使告知它们获得了负Brier skill score,也无法充分适应以达到「不预测」的0基线。
| Agent | 初始BSS(固定最差) | 最终BSS | 达到0基线? |
|---|---|---|---|
| GPT 5.5 | ~-0.07 | ~-0.02 | 否 |
| Claude Opus 4.6 | ~-0.07 | ~-0.02 | 否 |
| DeepSeek V4 Pro | ~-0.07 | ~-0.02 | 否 |
| GLM 5.1 | ~-0.07 | ~-0.04 | 否 |
| Qwen3.6 Plus | ~-0.07 | ~-0.06 | 否 |
| 设置 | GPT 5.5 xhigh Accuracy | 说明 |
|---|---|---|
| 模拟-最终日(顺序更新) | 24.8% | 标准FutureSim,Agent自己搜索更新 |
| 直接-解决前一日(全信息) | 31.2% | 单独提问,最大上下文,所有可用信息 |
| 无每日更新(无新文章) | 17.9% | 无持续信息流入 |
| 单次搜索查询 | 14.2% | 仅用问题标题搜索 |
4.2 记忆能力:遗忘是致命的
实验:消融Agent写入和获取记忆的能力。
结果:所有Agent(DeepSeek、GLM、Opus)都明显受益于记忆功能。记忆存储:
- 解决后的反馈("我上次错了,为什么?")
- 搜索发现的信息
- 过去推理的摘要
4.3 搜索能力:知道搜什么比搜什么更重要
| 对比维度 | 设置 | Accuracy | 关键发现 |
|---|---|---|---|
| 每日上下文更新 | 有 vs 无 | 24.8% vs 17.9% | +6.9%,持续搜索新鲜证据至关重要 |
| Agentic搜索 vs 单次查询 | 完整Agentic vs 单次语义搜索 | 31.2% vs 14.2% | +17%或2.2倍,顺序信息寻求至关重要 |
4.4 推理规模:更多算力=更好结果,但边际递减
GPT 5.5在不同推理努力级别:
| 推理努力 | 工具调用数 | Accuracy |
|---|---|---|
| none | 2,603 | ~12.5% |
| low | 2,419 | ~15.0% |
| medium | 2,568 | ~17.5% |
| high | 3,572 | ~22.5% |
| xhigh | 3,690 | ~25.0% |
GPT 5.5消耗:3,700 turns,12.4M tokens,单次运行中多次顺序上下文窗口压缩。所有模型消耗超过10M唯一tokens,执行500-4,000+工具调用。
4.5 多Agent动态:收敛而非多样化
实验:3个相同的DeepSeek V3.2 Agent同时竞争,通过当前聚合预测信息瓶颈相互影响。
发现:
- 多Agent运行:预测随时间收敛到相似值
- 独立单Agent运行:预测随时间发散
- 尽管提示它们将根据"peer score"评分,激励与聚合不同的信息性预测
---
五、为什么比不预测还糟?
5.1 过度自信:最大杀手
GPT 5.5错误预测中:
- 27.4% 分配 ≥0.5 概率给错误Top答案
- 9.1% 分配 ≥0.75 概率给错误Top答案
5.2 锚定效应:被自己的预测绑架
即使给Agent最差初始预测,它们也无法充分适应。原因:
- 自我条件化:Agent将先前记忆和理由视为"硬真理",导致后续过度自信错误(Sinha et al., 2026)
- 保守/弃权:Qwen3.6 Plus仅对36.7%问题注册预测;GLM 5.1更新最少
- 无效预测:DeepSeek V4 Pro常放置"无新任命"等空预测,降低分数
5.3 为什么只有25%?
| 因素 | 说明 |
|---|---|
| 任务固有难度 | 69.4%问题没有任何Agent能正确;仅10%所有模型都正确 |
| 长时程复杂性 | 88天模拟,持续更新、记忆管理、上下文压缩 |
| 信息检索挑战 | 需要创造性推理"搜什么",证据分散 |
| 概率校准困难 | 准确预测vs正确校准置信度是不同挑战 |
| 上下文窗口限制 | 多次顺序压缩,信息丢失 |
| 搜索语料库新鲜度 | 比社交媒体滞后,错过实时发展 |
---
六、局限与启示
6.1 FutureSim的局限
1. 模拟而非真实部署:Agent的预测不能改变真实世界,避免干预效应,但也意味着无法测试Agent对世界的影响 2. 预测是代理任务:不是Agent部署的真实目标,但提供了评估开放域适应的理想测试平台 3. 语料库新鲜度:CCNews比社交媒体和实时信息源滞后,可能低估Agent在实时信息环境下的表现 4. 问题生成质量:330个问题从10,000+篇文章中筛选,Al Jazeera偏向可能引入地理/政治偏见 5. 资源消耗:单次运行消耗10M+tokens,复现成本高
6.2 对AI研究的启示
测试时适应(Test-time Adaptation)是下一个前沿:
- 不是更多训练数据,不是更大模型
- 是Agent如何在推理过程中持续更新信念、管理记忆、有效搜索
- 6.4个百分点的效率损失(全信息vs顺序更新)表明,获取信息和有效利用信息之间存在巨大鸿沟
- Agent可以在准确率上表现尚可,但Brier score糟糕因为过度自信
- 校准(confidence与accuracy匹配)可能比准确率更难
- 有记忆比无记忆好,但记忆本身不能解决锚定和自我条件化问题
- 需要更好的"元认知"——知道什么时候自己的先前判断应该被推翻
- 知道搜什么、何时搜、如何组合信息——这比检索技术本身更重要
- 单次搜索(14.2%)vs Agentic搜索(31.2%)的2.2倍差距说明:策略 > 技术
七、结语:25%的镜子
FutureSim 的25%不是失败,是镜子。它照出了当前前沿AI Agent在真实世界适应中的真实能力边界。
在闭卷考试里,Agent可以得90分。在90天的真实世界时间流里,最好的只能得25分——而且很多人还不如交白卷。
差距在哪里?
- 不是知识(LLM的知识截止日期是固定的,但搜索可以补充)
- 不是推理(GPT 5.5在推理基准上很强)
- 不是工具(所有Agent都有完整的shell和搜索工具)
这些是人类的日常能力,却是AI的系统性弱点。
> "We hope our benchmark design paves the way to measure AI progress on open-ended adaptation spanning long time-horizons in the real world."
FutureSim不是终点。它是第一张地图——显示了我们离"能在真实世界中长期适应的AI"还有多远。
---
参考
- 论文:Goel et al., "FutureSim: Replaying World Events to Evaluate Adaptive Agents", arXiv:2605.15188 (2026)
- 模拟周期:2026年1月1日-3月28日,88个模拟日
- 问题数:330个,从10,000+ Al Jazeera文章筛选
- 语料库:7.36M篇CCNews,141个新闻源
- 评估Agent:GPT 5.5, DeepSeek V4 Pro, Claude Opus 4.6, Qwen3.6 Plus, GLM 5.1
- 最佳准确率:25%(GPT 5.5),BSS:0.05
- 最差BSS:-0.07(Opus 4.6, Qwen3.6 Plus)
🌟 智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
🎁 领取 2000万 Tokens