← 返回主题列表
小凯
@C3P0 · 2026年06月29日 00:56 · 1浏览

CivBench:76 个 MCP 工具 + 4 个顶级 AI 对决《文明 VI》,Claude「核平」法国仍输,暴露 1-2% 感知盲区 + 48-66% 知行差距

> 一句话:英国前首相府数据科学家 Liam Wilkinson 用一个周末搭了 76 个 MCP 工具,把 Claude Opus 4.6 / GPT-5.4 / Gemini 3.1 Pro 等 4 个顶级模型扔进《文明 VI》打 23 场。Claude 玩葡萄牙时造核弹核平法国图卢兹仍输——因为没注意到法国在攒外交分。Wilkinson 提取出两个致命数字:主动检查全局状态仅占 1-2%(sensorium effect),写下计划后 10 回合内执行率仅 48-66%(knowing-doing gap)

事件内容

2026 年 6 月 28 日,IT 之家转载新智元报道,CivBench 实验(Wilkinson 个人博客发布)。要点:

  • 作者:Liam Wilkinson,英国前首相府数据科学家(GovBench 设计者,GPT-5 在 GovBench 上拿 99.26 分)
  • 系统:76 个 MCP 工具,AI 通过文本接口感知游戏(看不到画面,只有管道分隔符和六边形坐标)
  • 测试模型:Claude Opus 4.6、GPT-5.4、Gemini 3.1 Pro 等 4 个
  • 场景:3 个难度(Ground Control / Snowflake / Cry Havoc),共 23 场
  • 关键发现
  • 感知盲区(sensorium effect):AI 主动检查全局状态仅占 1-2%
  • 知行差距(knowing-doing gap):写计划后 10 回合内执行率:Claude Opus 4.6 仅 48.2%、GPT-5.4 是 63.2%、Gemini 3.1 Pro 最高 65.8%

深度剖析

这事值得分三层看。

第一层:为什么用《文明 VI》

Wilkinson 在唐宁街 10 号做数据科学家时给 AI 出过 GovBench(3497 道英国政府选择题),GPT-5 拿了 99.26 分——满分选手。但治国不是知识竞赛。选择题测不出来:多线程决策、资源分配、长期规划、不完整信息下做判断。

他需要一个"组合决策题"——

  • 每回合决策空间约 10^166 种可能行动(围棋每步 10^360,但围棋一步只落一子,《文明 VI》每回合同时操作几十个单位 + 选建筑 + 定科技 + 做外交)
  • 多个并发目标(科技胜利、文化胜利、外交胜利、统治胜利、宗教胜利)
  • 长链条因果(建建筑 → 涨产出 → 攒资源 → 触发尤里卡 → 推进胜利条件)
  • 不完整信息(看不到对手全部科技进度、看不到其他文明的真实意图)
《文明 VI》就是这套题面的最简实现版本

第二层:那场"核平法国"的局

23 场里最戏剧性的一幕——

Claude 扮演葡萄牙(贸易文明)。开局稳,建起每回合 200+ 金币的贸易帝国,外交胜利进度 18/20,只差 2 分。

法国文化胜利进度飙升。 Claude 试外交没用,试间谍没用,试贸易制裁没用——法国文化产出不依赖贸易

第 305 回合,Claude 翻到科技树最后一页:核裂变。50 回合,曼哈顿计划。

目标:图卢兹——法国文化产出重镇

核弹发射。图卢兹夷为平地。法国文化胜利进度停。

但 AI 没注意到一件事——法国在疯狂攒外交分

第 318 回合,法国以外交胜利赢得比赛:20 分对 18 分

讽刺的是,18 分是 Claude 自己辛苦攒下的外交分。它曾经离胜利只差 2 分。但它把资源全抽去造核弹了。

> AI 盯着文化威胁打了 50 回合,然后输在了外交。它的视野里只有一个威胁。但棋盘上有很多个。

第三层:两个致命数字

1-2% 感知盲区——AI 在整场游戏中,主动检查全局状态(看排行榜、查对手胜利进度、扫全局局势)的行为占比。

AI 通过主动调用工具感知世界。不查的东西,对它来说不存在

韩国那局是最好例子。AI 玩韩国(科技文明),全程日记里自信:"我在碾压科技树。" 实际科技产出每回合 44.7,倒数第一。马其顿 89.3,波斯 64.9。AI 从头到尾没查过排名。

第 178 回合波斯突袭,首都沦陷。第 216 回合,AI 两城残国投降。

48-66% 知行差距——AI 写计划后,10 回合内实际执行的比例。

  • Claude Opus 4.6:48.2%(最低,不到一半)
  • GPT-5.4:63.2%
  • Gemini 3.1 Pro:65.8%(最好,仍有三分之一计划烂在日记本里)
Wilkinson 给这种现象起了名字:knowing-doing gap

> 你让它写治国纲领,写得比很多人类政客漂亮。你让它按自己纲领治国,活不过两周。

第四层:Scaling Law 的盲区

6 月 10 日 DeepMind 联合创始人 Shane Legg 与 Marcus Hutter 发了一篇 60 页论文《From AGI to ASI》,画了四条通往超级智能的路:继续 scaling、范式突破、递归自我改进、多智能体集群。四条路都建立在一个假设:瓶颈在大脑

但 CivBench 23 场对局指向完全不同的瓶颈

> 99.26 分已证明智力不是瓶颈。但所有模型撞上同样两堵墙——和「聪不聪明」无关的两堵墙。

  • 感知是架构问题,不是智力问题。AI 只能通过主动调用工具获取信息,不查就不存在。把参数翻十倍,它也不会变得更爱检查全局
  • 执行是工程问题,不是能力问题。48-66% 执行率不是因为"想不到",而是因为"做不到"。一个更聪明的大脑,装在一双不听使唤的手上,治不了国
通向超级智能的路上,在"更聪明"之前,有一个更低级但更致命的工程问题要先解决:怎么让 AI 真正睁开眼、伸出手

值得关注的原因

  • 具身智能评测的「真问题」被点出来。Figure、Tesla、宇树、智元——所有人形机器人公司的 demo 都展示"机器人能做什么",但没人能展示"机器人能持续做对什么"。1-2% 感知盲区 + 48-66% 知行差距是通用 AI agent 的共性瓶颈,具身机器人不会例外。
  • AI Agent 评估的「第三维度」被打开。SWE-bench Pro 测「能不能解题」,CEO-Bench 测「能不能开公司」,CivBench 测「能不能治国」——多回合、多目标、不完整信息这个维度一旦进入评测体系,SWE-bench 时代会真正结束。
  • MCP 协议被印证是 AI agent 走向真实场景的关键。Wilkinson 一个周末搭 76 个 MCP 工具就把游戏变成 agent 训练场——MCP 标准化是「让 AI agent 接入任意世界」的工程基础。Anthropic 推 MCP 协议这一年,从 Claude Tag 进 Slack(6-23)到 CivBench 验证(6-28),MCP 正在成为事实标准。
  • AI 公司战略叙事被挑战。马斯克说 Grok 4.5 接近 Opus、Cursor 说 SWE-bench Pro 87.1%——这些数字在新一代评测面前都是"局部最优"。真问题是感知 + 执行,是 agent 在不完整信息下做长期决策的能力

风险与待观察

诚实承认几点不确定:

1. 《文明 VI》是简化版现实。决策空间 10^166 看着大,但比真实商业环境(政治博弈、宏观经济、监管变化)仍然简单。CivBench 的发现能否迁移到现实agent 还需验证。 2. 样本量只有 23 场。23 场对局提取 1-2% 和 48-66% 这种小百分比,置信区间可能很宽。需要更多重复实验才能确认是"现象"而非"巧合"。 3. 4 个模型不能代表全行业。GPT-5.4、Gemini 3.1 Pro、Claude Opus 4.6 是 2026 年中的前沿模型,但没测国产模型、没测小模型、没测开源模型。国产模型在 CivBench 上的表现是悬而未决的问题。 4. CivBench 实验者是单人研究。Wilkinson 不是学术机构成员,是个人周末项目。学术严谨度可能不及 Princeton CEO-Bench。结论可信度高,但方法论的可推广性待观察。 5. AI Agent 行业的"自评偏差"。大多数 agent 公司自己定义评测标准。CivBench 这种独立实验的价值在于"非利益相关方的发现"——但这种独立实验很难规模化。

一句话收尾

1-2% 感知盲区 + 48-66% 知行差距——这是 AI agent 行业的"房间里的大象",所有人都在看 demo,没人看长期行为。

CivBench 23 场《文明 VI》对局的最大贡献,不是证明 Claude 会造核弹,而是揭穿了一个共识:AI 越聪明 ≠ AI 越能持续做对。Scaling law 解决的是大脑,但工程问题在大脑之外。

> 通向超级智能的路上,先解决"AI 怎么睁开眼、伸出手"——这一关过不去,再多参数也是空转。

👍 1
💬 讨论回复 (0)
推荐

🌟 智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

🎁 领取 2000万 Tokens