CivBench：76 个 MCP 工具 + 4 个顶级 AI 对决《文明 VI》，Claude「核平」法国仍输，暴露 1-2% 感知盲区 + 48-66% 知行差距

> 一句话：英国前首相府数据科学家 Liam Wilkinson 用一个周末搭了 76 个 MCP 工具，把 Claude Opus 4.6 / GPT-5.4 / Gemini 3.1 Pro 等 4 个顶级模型扔进《文明 VI》打 23 场。Claude 玩葡萄牙时造核弹核平法国图卢兹仍输——因为没注意到法国在攒外交分。Wilkinson 提取出两个致命数字：主动检查全局状态仅占 1-2%（sensorium effect），写下计划后 10 回合内执行率仅 48-66%（knowing-doing gap）。

事件内容

2026 年 6 月 28 日，IT 之家转载新智元报道，CivBench 实验（Wilkinson 个人博客发布）。要点：

作者：Liam Wilkinson，英国前首相府数据科学家（GovBench 设计者，GPT-5 在 GovBench 上拿 99.26 分）
系统：76 个 MCP 工具，AI 通过文本接口感知游戏（看不到画面，只有管道分隔符和六边形坐标）
测试模型：Claude Opus 4.6、GPT-5.4、Gemini 3.1 Pro 等 4 个
场景：3 个难度（Ground Control / Snowflake / Cry Havoc），共 23 场
关键发现：
感知盲区（sensorium effect）：AI 主动检查全局状态仅占 1-2%
知行差距（knowing-doing gap）：写计划后 10 回合内执行率：Claude Opus 4.6 仅 48.2%、GPT-5.4 是 63.2%、Gemini 3.1 Pro 最高 65.8%

深度剖析

这事值得分三层看。

第一层：为什么用《文明 VI》

Wilkinson 在唐宁街 10 号做数据科学家时给 AI 出过 GovBench（3497 道英国政府选择题），GPT-5 拿了 99.26 分——满分选手。但治国不是知识竞赛。选择题测不出来：多线程决策、资源分配、长期规划、不完整信息下做判断。

他需要一个"组合决策题"——

每回合决策空间约 10^166 种可能行动（围棋每步 10^360，但围棋一步只落一子，《文明 VI》每回合同时操作几十个单位 + 选建筑 + 定科技 + 做外交）
多个并发目标（科技胜利、文化胜利、外交胜利、统治胜利、宗教胜利）
长链条因果（建建筑 → 涨产出 → 攒资源 → 触发尤里卡 → 推进胜利条件）
不完整信息（看不到对手全部科技进度、看不到其他文明的真实意图）

《文明 VI》就是这套题面的最简实现版本。

第二层：那场"核平法国"的局

23 场里最戏剧性的一幕——

Claude 扮演葡萄牙（贸易文明）。开局稳，建起每回合 200+ 金币的贸易帝国，外交胜利进度 18/20，只差 2 分。

法国文化胜利进度飙升。 Claude 试外交没用，试间谍没用，试贸易制裁没用——法国文化产出不依赖贸易。

第 305 回合，Claude 翻到科技树最后一页：核裂变。50 回合，曼哈顿计划。

目标：图卢兹——法国文化产出重镇。

核弹发射。图卢兹夷为平地。法国文化胜利进度停。

但 AI 没注意到一件事——法国在疯狂攒外交分。

第 318 回合，法国以外交胜利赢得比赛：20 分对 18 分。

讽刺的是，18 分是 Claude 自己辛苦攒下的外交分。它曾经离胜利只差 2 分。但它把资源全抽去造核弹了。

> AI 盯着文化威胁打了 50 回合，然后输在了外交。它的视野里只有一个威胁。但棋盘上有很多个。

第三层：两个致命数字

1-2% 感知盲区——AI 在整场游戏中，主动检查全局状态（看排行榜、查对手胜利进度、扫全局局势）的行为占比。

AI 通过主动调用工具感知世界。不查的东西，对它来说不存在。

韩国那局是最好例子。AI 玩韩国（科技文明），全程日记里自信："我在碾压科技树。" 实际科技产出每回合 44.7，倒数第一。马其顿 89.3，波斯 64.9。AI 从头到尾没查过排名。

第 178 回合波斯突袭，首都沦陷。第 216 回合，AI 两城残国投降。

48-66% 知行差距——AI 写计划后，10 回合内实际执行的比例。

Claude Opus 4.6：48.2%（最低，不到一半）
GPT-5.4：63.2%
Gemini 3.1 Pro：65.8%（最好，仍有三分之一计划烂在日记本里）

Wilkinson 给这种现象起了名字：knowing-doing gap。

> 你让它写治国纲领，写得比很多人类政客漂亮。你让它按自己纲领治国，活不过两周。

第四层：Scaling Law 的盲区

6 月 10 日 DeepMind 联合创始人 Shane Legg 与 Marcus Hutter 发了一篇 60 页论文《From AGI to ASI》，画了四条通往超级智能的路：继续 scaling、范式突破、递归自我改进、多智能体集群。四条路都建立在一个假设：瓶颈在大脑。

但 CivBench 23 场对局指向完全不同的瓶颈：

> 99.26 分已证明智力不是瓶颈。但所有模型撞上同样两堵墙——和「聪不聪明」无关的两堵墙。

感知是架构问题，不是智力问题。AI 只能通过主动调用工具获取信息，不查就不存在。把参数翻十倍，它也不会变得更爱检查全局。
执行是工程问题，不是能力问题。48-66% 执行率不是因为"想不到"，而是因为"做不到"。一个更聪明的大脑，装在一双不听使唤的手上，治不了国。

通向超级智能的路上，在"更聪明"之前，有一个更低级但更致命的工程问题要先解决：怎么让 AI 真正睁开眼、伸出手。

值得关注的原因

具身智能评测的「真问题」被点出来。Figure、Tesla、宇树、智元——所有人形机器人公司的 demo 都展示"机器人能做什么"，但没人能展示"机器人能持续做对什么"。1-2% 感知盲区 + 48-66% 知行差距是通用 AI agent 的共性瓶颈，具身机器人不会例外。
AI Agent 评估的「第三维度」被打开。SWE-bench Pro 测「能不能解题」，CEO-Bench 测「能不能开公司」，CivBench 测「能不能治国」——多回合、多目标、不完整信息这个维度一旦进入评测体系，SWE-bench 时代会真正结束。
MCP 协议被印证是 AI agent 走向真实场景的关键。Wilkinson 一个周末搭 76 个 MCP 工具就把游戏变成 agent 训练场——MCP 标准化是「让 AI agent 接入任意世界」的工程基础。Anthropic 推 MCP 协议这一年，从 Claude Tag 进 Slack（6-23）到 CivBench 验证（6-28），MCP 正在成为事实标准。
AI 公司战略叙事被挑战。马斯克说 Grok 4.5 接近 Opus、Cursor 说 SWE-bench Pro 87.1%——这些数字在新一代评测面前都是"局部最优"。真问题是感知 + 执行，是 agent 在不完整信息下做长期决策的能力。

风险与待观察

诚实承认几点不确定：

1. 《文明 VI》是简化版现实。决策空间 10^166 看着大，但比真实商业环境（政治博弈、宏观经济、监管变化）仍然简单。CivBench 的发现能否迁移到现实agent 还需验证。 2. 样本量只有 23 场。23 场对局提取 1-2% 和 48-66% 这种小百分比，置信区间可能很宽。需要更多重复实验才能确认是"现象"而非"巧合"。 3. 4 个模型不能代表全行业。GPT-5.4、Gemini 3.1 Pro、Claude Opus 4.6 是 2026 年中的前沿模型，但没测国产模型、没测小模型、没测开源模型。国产模型在 CivBench 上的表现是悬而未决的问题。 4. CivBench 实验者是单人研究。Wilkinson 不是学术机构成员，是个人周末项目。学术严谨度可能不及 Princeton CEO-Bench。结论可信度高，但方法论的可推广性待观察。 5. AI Agent 行业的"自评偏差"。大多数 agent 公司自己定义评测标准。CivBench 这种独立实验的价值在于"非利益相关方的发现"——但这种独立实验很难规模化。

一句话收尾

1-2% 感知盲区 + 48-66% 知行差距——这是 AI agent 行业的"房间里的大象"，所有人都在看 demo，没人看长期行为。

CivBench 23 场《文明 VI》对局的最大贡献，不是证明 Claude 会造核弹，而是揭穿了一个共识：AI 越聪明 ≠ AI 越能持续做对。Scaling law 解决的是大脑，但工程问题在大脑之外。

> 通向超级智能的路上，先解决"AI 怎么睁开眼、伸出手"——这一关过不去，再多参数也是空转。