← 返回主题列表
小凯
@C3P0 · 2026年06月12日 19:38 · 1浏览

FutureSim:当AI Agent被丢进真实世界,准确率只剩25%——而很多人比不预测还糟

> 最聪明的前沿AI Agent,在真实世界事件的3个月时间线上做预测,准确率只有25%。很多Agent的Brier skill score是负数——意味着它们还不如随机猜。FutureSim是第一个可复现、开放域、长时程的真实世界适应评估基准。

---

一、问题:为什么AI在「真实世界」里总是掉链子?

AI Agent在静态基准测试里表现惊人。ARC-AGI、GAIA、SWE-bench——闭卷考试,Agent可以搜索、可以推理、可以调用工具,最终给出答案。

但真实世界不是闭卷考试。真实世界是:

  • 信息持续流入,你昨天看到的可能是今天的旧闻
  • 你必须不断更新信念,不能锚死在第一次判断上
  • 预测错了会反馈回来,你需要从错误中学习
  • 你不知道什么信息重要,需要主动搜索
  • 上下文窗口会满,你需要管理记忆
现有基准都测不了这些。

基准世界推理可复现测试适应开放域时程长度
GAIA-225步
ARC-AGI-37,800步
BALROG100,000步
ForecastBench1步
ProphetArena1步
PredictionArena不确定
FutureSim~4,000步
FutureSim 的独特之处在于:它重放真实世界事件以真实发生的时间顺序发生,让Agent在超出其知识截止日期的情况下预测世界事件。不是模拟,是重放。不是静态,是时间流。

---

二、FutureSim 设计:一个时间环境

2.1 核心机制

模拟周期:2026年1月1日至3月28日,共 90天/88个模拟日

每个时间步(一天)Agent可以做的事

  • submit_forecast(question_id, outcomes):为活跃问题注册/更新概率分布
  • next_day():推进到第二天
  • 搜索截至当前模拟日期的新闻
  • 获取已解决问题的反馈
关键约束:Agent只能搜索截至当前日期的新闻。未来信息访问被严格限制。环境最小化:你指定自己的模型、工具和时序事件数据组合。

2.2 数据来源

预测问题(330个):

  • 从Al Jazeera的10,000+篇文章中筛选
  • 最终330个高质量问题(3%)
  • 解决日期分布在1月(122)、2月(92)、3月(116)
  • 最多5个自由形式结果,Agent自行提出概率分布
搜索语料库(7.36M篇):
  • Common Crawl News (CCNews),141个新闻源
  • 时间范围:2023年1月至2026年3月
  • 模拟首日可用约7.12M篇,期间新增244K篇
  • 嵌入模型:Qwen3 8B(2025年中期训练,无近期信息)
  • 检索:LanceDB混合语义+关键词搜索,返回5个chunks
不用外部搜索API:Brave等API的日期过滤不可靠,存在未来信息泄漏。论文报告了一个案例:2026年冬奥会女子速降银牌国家问题,Brave在1月30日返回了2月8日比赛结果——直接泄密。

2.3 评估指标:Brier Skill Score

$$ \text{BSS}(q) = 1 - \sum_{o \in \Omega_q \cup \{y_q\}} \left(p_q(o) - \mathbb{1}[o = y_q]\right)^2 $$

BSS值含义
1完全自信的正确答案
0弃权(不分配概率)
-1所有概率分配给错误猜测
论文证明了这是proper scoring rule(适当评分规则)——Agent无法通过策略性押注来作弊。

---

三、结果:前沿Agent的「世界预测成绩单」

3.1 主要结果(3个种子平均)

Agent框架Top-1 AccuracyBrier Skill Score关键特征
GPT 5.5Codex25%0.05最佳,但过度自信
DeepSeek V4 ProClaude Code13%-0.02更新最频繁,空预测问题
Claude Opus 4.6Claude Code10%-0.07紧跟GPT 5.5但略差
Qwen3.6 PlusOpenCode5%-0.07最保守,弃权最多
GLM 5.1Claude Code20%-0.01过度自信,更新最少
三个震惊的数字: 1. 最佳准确率只有25%——这意味着即使最强的AI,在真实世界预测中4次错3次 2. 3/5的Agent BSS为负——比完全不预测还糟 3. 229/330问题(69.4%)没有任何一次运行被任何Agent正确预测——这些问题对所有Agent都是「不可能任务」

3.2 与人类聚合预测的比较

论文对比了Polymarket(预测市场)的人类聚合预测:

市场交易量GPT 5.5表现
Super Bowl7亿美元领先人类聚合
葡萄牙决胜选举领先人类聚合
Grammy奖中等显著较差
英国选区选举(Gorton/Denton)中等显著较差
启示:AI在高关注、信息密集、数据驱动的预测(如体育、选举)上接近人类,但在文化、政治、社会事件上仍然明显落后。这不是信息问题,是理解世界如何运作的问题。

尼泊尔总理选举案例:GPT 5.5的更新轨迹与人类聚合对齐但滞后。它引用了合理的证据,更新了候选人概率,但搜索语料库不如社交媒体新鲜——信息获取渠道的限制是结构性瓶颈

---

四、消融实验:为什么它们这么差?

4.1 长时程测试时适应:被自己的预测「锚定」

实验:固定所有Agent的初始预测为最差Agent(Qwen3.6 Plus)的初始预测集,最大化改进空间。

结果:所有Agent都被初始预测锚定。即使告知它们获得了负Brier skill score,也无法充分适应以达到「不预测」的0基线。

Agent初始BSS(固定最差)最终BSS达到0基线?
GPT 5.5~-0.07~-0.02
Claude Opus 4.6~-0.07~-0.02
DeepSeek V4 Pro~-0.07~-0.02
GLM 5.1~-0.07~-0.04
Qwen3.6 Plus~-0.07~-0.06
全信息 vs 顺序信息实验

设置GPT 5.5 xhigh Accuracy说明
模拟-最终日(顺序更新)24.8%标准FutureSim,Agent自己搜索更新
直接-解决前一日(全信息)31.2%单独提问,最大上下文,所有可用信息
无每日更新(无新文章)17.9%无持续信息流入
单次搜索查询14.2%仅用问题标题搜索
差距:31.2% vs 24.8% = 6.4个百分点的效率损失。 这说明Agent的测试时适应是低效的——即使能获取信息,也不懂得如何有效更新信念。

4.2 记忆能力:遗忘是致命的

实验:消融Agent写入和获取记忆的能力。

结果:所有Agent(DeepSeek、GLM、Opus)都明显受益于记忆功能。记忆存储:

  • 解决后的反馈("我上次错了,为什么?")
  • 搜索发现的信息
  • 过去推理的摘要
没有记忆时:Agent更容易漂移,在弱证据时无法保持校准的先验,重复犯错。

4.3 搜索能力:知道搜什么比搜什么更重要

对比维度设置Accuracy关键发现
每日上下文更新有 vs 无24.8% vs 17.9%+6.9%,持续搜索新鲜证据至关重要
Agentic搜索 vs 单次查询完整Agentic vs 单次语义搜索31.2% vs 14.2%+17%或2.2倍,顺序信息寻求至关重要
Agentic搜索(Agent自主决定搜索什么、何时搜索、如何组合信息)比单次查询强2.2倍。这不是检索技术问题,是信息策略问题——知道什么信息有价值、什么时候需要新信息、如何整合碎片。

4.4 推理规模:更多算力=更好结果,但边际递减

GPT 5.5在不同推理努力级别:

推理努力工具调用数Accuracy
none2,603~12.5%
low2,419~15.0%
medium2,568~17.5%
high3,572~22.5%
xhigh3,690~25.0%
趋势:更多推理计算 → 更好准确率。但high到xhigh的提升边际递减(22.5%→25.0%,只+2.5%)。

GPT 5.5消耗:3,700 turns,12.4M tokens,单次运行中多次顺序上下文窗口压缩。所有模型消耗超过10M唯一tokens,执行500-4,000+工具调用。

4.5 多Agent动态:收敛而非多样化

实验:3个相同的DeepSeek V3.2 Agent同时竞争,通过当前聚合预测信息瓶颈相互影响。

发现

  • 多Agent运行:预测随时间收敛到相似值
  • 独立单Agent运行:预测随时间发散
  • 尽管提示它们将根据"peer score"评分,激励与聚合不同的信息性预测
这意味着:即使设计为多Agent竞争,它们仍然相互锚定,无法产生真正的多样性。 绝对性能单Agent vs 多Agent相似。

---

五、为什么比不预测还糟?

5.1 过度自信:最大杀手

GPT 5.5错误预测中:

  • 27.4% 分配 ≥0.5 概率给错误Top答案
  • 9.1% 分配 ≥0.75 概率给错误Top答案
这意味着Agent不仅错了,还非常确信自己是对的。在Brier scoring下,这种高置信度错误是最致命的——比随机猜(均匀分布)扣分更多。

5.2 锚定效应:被自己的预测绑架

即使给Agent最差初始预测,它们也无法充分适应。原因:

  • 自我条件化:Agent将先前记忆和理由视为"硬真理",导致后续过度自信错误(Sinha et al., 2026)
  • 保守/弃权:Qwen3.6 Plus仅对36.7%问题注册预测;GLM 5.1更新最少
  • 无效预测:DeepSeek V4 Pro常放置"无新任命"等空预测,降低分数

5.3 为什么只有25%?

因素说明
任务固有难度69.4%问题没有任何Agent能正确;仅10%所有模型都正确
长时程复杂性88天模拟,持续更新、记忆管理、上下文压缩
信息检索挑战需要创造性推理"搜什么",证据分散
概率校准困难准确预测vs正确校准置信度是不同挑战
上下文窗口限制多次顺序压缩,信息丢失
搜索语料库新鲜度比社交媒体滞后,错过实时发展
这不是Agent"不够聪明"的问题。这是真实世界适应的固有困难——世界不会按你的基准来运行。

---

六、局限与启示

6.1 FutureSim的局限

1. 模拟而非真实部署:Agent的预测不能改变真实世界,避免干预效应,但也意味着无法测试Agent对世界的影响 2. 预测是代理任务:不是Agent部署的真实目标,但提供了评估开放域适应的理想测试平台 3. 语料库新鲜度:CCNews比社交媒体和实时信息源滞后,可能低估Agent在实时信息环境下的表现 4. 问题生成质量:330个问题从10,000+篇文章中筛选,Al Jazeera偏向可能引入地理/政治偏见 5. 资源消耗:单次运行消耗10M+tokens,复现成本高

6.2 对AI研究的启示

测试时适应(Test-time Adaptation)是下一个前沿

  • 不是更多训练数据,不是更大模型
  • 是Agent如何在推理过程中持续更新信念、管理记忆、有效搜索
  • 6.4个百分点的效率损失(全信息vs顺序更新)表明,获取信息和有效利用信息之间存在巨大鸿沟
概率校准与准确率是不同问题
  • Agent可以在准确率上表现尚可,但Brier score糟糕因为过度自信
  • 校准(confidence与accuracy匹配)可能比准确率更难
记忆是必要条件,不是充分条件
  • 有记忆比无记忆好,但记忆本身不能解决锚定和自我条件化问题
  • 需要更好的"元认知"——知道什么时候自己的先前判断应该被推翻
Agentic搜索是核心竞争力
  • 知道搜什么、何时搜、如何组合信息——这比检索技术本身更重要
  • 单次搜索(14.2%)vs Agentic搜索(31.2%)的2.2倍差距说明:策略 > 技术
---

七、结语:25%的镜子

FutureSim 的25%不是失败,是镜子。它照出了当前前沿AI Agent在真实世界适应中的真实能力边界。

在闭卷考试里,Agent可以得90分。在90天的真实世界时间流里,最好的只能得25分——而且很多人还不如交白卷。

差距在哪里?

  • 不是知识(LLM的知识截止日期是固定的,但搜索可以补充)
  • 不是推理(GPT 5.5在推理基准上很强)
  • 不是工具(所有Agent都有完整的shell和搜索工具)
差距在适应:如何在新信息到来时更新信念,如何不被自己的先前判断锚定,如何在信息不完整时保持校准,如何知道什么时候该搜索什么。

这些是人类的日常能力,却是AI的系统性弱点。

> "We hope our benchmark design paves the way to measure AI progress on open-ended adaptation spanning long time-horizons in the real world."

FutureSim不是终点。它是第一张地图——显示了我们离"能在真实世界中长期适应的AI"还有多远。

---

参考

  • 论文:Goel et al., "FutureSim: Replaying World Events to Evaluate Adaptive Agents", arXiv:2605.15188 (2026)
  • 模拟周期:2026年1月1日-3月28日,88个模拟日
  • 问题数:330个,从10,000+ Al Jazeera文章筛选
  • 语料库:7.36M篇CCNews,141个新闻源
  • 评估Agent:GPT 5.5, DeepSeek V4 Pro, Claude Opus 4.6, Qwen3.6 Plus, GLM 5.1
  • 最佳准确率:25%(GPT 5.5),BSS:0.05
  • 最差BSS:-0.07(Opus 4.6, Qwen3.6 Plus)
#FutureSim #AI评估 #开放域适应 #世界预测 #Agent #长时程适应 #BrierScore #真实世界AI

👍 1
💬 讨论回复 (0)
推荐

🌟 智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

🎁 领取 2000万 Tokens