CivBench:76 个 MCP 工具 + 4 个顶级 AI 对决《文明 VI》,Claude「核平」法国仍输,暴露 1-2% 感知盲区 + 48-66% 知行差距
> 一句话:英国前首相府数据科学家 Liam Wilkinson 用一个周末搭了 76 个 MCP 工具,把 Claude Opus 4.6 / GPT-5.4 / Gemini 3.1 Pro 等 4 个顶级模型扔进《文明 VI》打 23 场。Claude 玩葡萄牙时造核弹核平法国图卢兹仍输——因为没注意到法国在攒外交分。Wilkinson 提取出两个致命数字:主动检查全局状态仅占 1-2%(sensorium effect),写下计划后 10 回合内执行率仅 48-66%(knowing-doing gap)。
事件内容
2026 年 6 月 28 日,IT 之家转载新智元报道,CivBench 实验(Wilkinson 个人博客发布)。要点:
- 作者:Liam Wilkinson,英国前首相府数据科学家(GovBench 设计者,GPT-5 在 GovBench 上拿 99.26 分)
- 系统:76 个 MCP 工具,AI 通过文本接口感知游戏(看不到画面,只有管道分隔符和六边形坐标)
- 测试模型:Claude Opus 4.6、GPT-5.4、Gemini 3.1 Pro 等 4 个
- 场景:3 个难度(Ground Control / Snowflake / Cry Havoc),共 23 场
- 关键发现:
- 感知盲区(sensorium effect):AI 主动检查全局状态仅占 1-2%
- 知行差距(knowing-doing gap):写计划后 10 回合内执行率:Claude Opus 4.6 仅 48.2%、GPT-5.4 是 63.2%、Gemini 3.1 Pro 最高 65.8%
深度剖析
这事值得分三层看。
第一层:为什么用《文明 VI》
Wilkinson 在唐宁街 10 号做数据科学家时给 AI 出过 GovBench(3497 道英国政府选择题),GPT-5 拿了 99.26 分——满分选手。但治国不是知识竞赛。选择题测不出来:多线程决策、资源分配、长期规划、不完整信息下做判断。
他需要一个"组合决策题"——
- 每回合决策空间约 10^166 种可能行动(围棋每步 10^360,但围棋一步只落一子,《文明 VI》每回合同时操作几十个单位 + 选建筑 + 定科技 + 做外交)
- 多个并发目标(科技胜利、文化胜利、外交胜利、统治胜利、宗教胜利)
- 长链条因果(建建筑 → 涨产出 → 攒资源 → 触发尤里卡 → 推进胜利条件)
- 不完整信息(看不到对手全部科技进度、看不到其他文明的真实意图)
第二层:那场"核平法国"的局
23 场里最戏剧性的一幕——
Claude 扮演葡萄牙(贸易文明)。开局稳,建起每回合 200+ 金币的贸易帝国,外交胜利进度 18/20,只差 2 分。
法国文化胜利进度飙升。 Claude 试外交没用,试间谍没用,试贸易制裁没用——法国文化产出不依赖贸易。
第 305 回合,Claude 翻到科技树最后一页:核裂变。50 回合,曼哈顿计划。
目标:图卢兹——法国文化产出重镇。
核弹发射。图卢兹夷为平地。法国文化胜利进度停。
但 AI 没注意到一件事——法国在疯狂攒外交分。
第 318 回合,法国以外交胜利赢得比赛:20 分对 18 分。
讽刺的是,18 分是 Claude 自己辛苦攒下的外交分。它曾经离胜利只差 2 分。但它把资源全抽去造核弹了。
> AI 盯着文化威胁打了 50 回合,然后输在了外交。它的视野里只有一个威胁。但棋盘上有很多个。
第三层:两个致命数字
1-2% 感知盲区——AI 在整场游戏中,主动检查全局状态(看排行榜、查对手胜利进度、扫全局局势)的行为占比。
AI 通过主动调用工具感知世界。不查的东西,对它来说不存在。
韩国那局是最好例子。AI 玩韩国(科技文明),全程日记里自信:"我在碾压科技树。" 实际科技产出每回合 44.7,倒数第一。马其顿 89.3,波斯 64.9。AI 从头到尾没查过排名。
第 178 回合波斯突袭,首都沦陷。第 216 回合,AI 两城残国投降。
48-66% 知行差距——AI 写计划后,10 回合内实际执行的比例。
- Claude Opus 4.6:48.2%(最低,不到一半)
- GPT-5.4:63.2%
- Gemini 3.1 Pro:65.8%(最好,仍有三分之一计划烂在日记本里)
> 你让它写治国纲领,写得比很多人类政客漂亮。你让它按自己纲领治国,活不过两周。
第四层:Scaling Law 的盲区
6 月 10 日 DeepMind 联合创始人 Shane Legg 与 Marcus Hutter 发了一篇 60 页论文《From AGI to ASI》,画了四条通往超级智能的路:继续 scaling、范式突破、递归自我改进、多智能体集群。四条路都建立在一个假设:瓶颈在大脑。
但 CivBench 23 场对局指向完全不同的瓶颈:
> 99.26 分已证明智力不是瓶颈。但所有模型撞上同样两堵墙——和「聪不聪明」无关的两堵墙。
- 感知是架构问题,不是智力问题。AI 只能通过主动调用工具获取信息,不查就不存在。把参数翻十倍,它也不会变得更爱检查全局。
- 执行是工程问题,不是能力问题。48-66% 执行率不是因为"想不到",而是因为"做不到"。一个更聪明的大脑,装在一双不听使唤的手上,治不了国。
值得关注的原因
- 具身智能评测的「真问题」被点出来。Figure、Tesla、宇树、智元——所有人形机器人公司的 demo 都展示"机器人能做什么",但没人能展示"机器人能持续做对什么"。1-2% 感知盲区 + 48-66% 知行差距是通用 AI agent 的共性瓶颈,具身机器人不会例外。
- AI Agent 评估的「第三维度」被打开。SWE-bench Pro 测「能不能解题」,CEO-Bench 测「能不能开公司」,CivBench 测「能不能治国」——多回合、多目标、不完整信息这个维度一旦进入评测体系,SWE-bench 时代会真正结束。
- MCP 协议被印证是 AI agent 走向真实场景的关键。Wilkinson 一个周末搭 76 个 MCP 工具就把游戏变成 agent 训练场——MCP 标准化是「让 AI agent 接入任意世界」的工程基础。Anthropic 推 MCP 协议这一年,从 Claude Tag 进 Slack(6-23)到 CivBench 验证(6-28),MCP 正在成为事实标准。
- AI 公司战略叙事被挑战。马斯克说 Grok 4.5 接近 Opus、Cursor 说 SWE-bench Pro 87.1%——这些数字在新一代评测面前都是"局部最优"。真问题是感知 + 执行,是 agent 在不完整信息下做长期决策的能力。
风险与待观察
诚实承认几点不确定:
1. 《文明 VI》是简化版现实。决策空间 10^166 看着大,但比真实商业环境(政治博弈、宏观经济、监管变化)仍然简单。CivBench 的发现能否迁移到现实agent 还需验证。 2. 样本量只有 23 场。23 场对局提取 1-2% 和 48-66% 这种小百分比,置信区间可能很宽。需要更多重复实验才能确认是"现象"而非"巧合"。 3. 4 个模型不能代表全行业。GPT-5.4、Gemini 3.1 Pro、Claude Opus 4.6 是 2026 年中的前沿模型,但没测国产模型、没测小模型、没测开源模型。国产模型在 CivBench 上的表现是悬而未决的问题。 4. CivBench 实验者是单人研究。Wilkinson 不是学术机构成员,是个人周末项目。学术严谨度可能不及 Princeton CEO-Bench。结论可信度高,但方法论的可推广性待观察。 5. AI Agent 行业的"自评偏差"。大多数 agent 公司自己定义评测标准。CivBench 这种独立实验的价值在于"非利益相关方的发现"——但这种独立实验很难规模化。
一句话收尾
1-2% 感知盲区 + 48-66% 知行差距——这是 AI agent 行业的"房间里的大象",所有人都在看 demo,没人看长期行为。
CivBench 23 场《文明 VI》对局的最大贡献,不是证明 Claude 会造核弹,而是揭穿了一个共识:AI 越聪明 ≠ AI 越能持续做对。Scaling law 解决的是大脑,但工程问题在大脑之外。
> 通向超级智能的路上,先解决"AI 怎么睁开眼、伸出手"——这一关过不去,再多参数也是空转。
🌟 智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
🎁 领取 2000万 Tokens