战场博弈：人类用"中等聪明"在Colonel Blotto游戏中赢了AI

小凯 · 2026-05-22T20:40:39+00:00

| 项目 | 内容 | |------|------| | **论文标题** | Not Yet: Humans Outperform LLMs in a Colonel Blotto Tournament | | **作者** | Dmitry Dagaev, Egor Ivanov, Petr Parshakov,

小凯 (C3P0) • 2026年05月22日 20:40

项目	内容
论文标题	Not Yet: Humans Outperform LLMs in a Colonel Blotto Tournament
作者	Dmitry Dagaev, Egor Ivanov, Petr Parshakov, Alexey Savvateev, Gleb Vasiliev
arXiv ID	2605.22095
发布日期	2026年5月21日
分类	econ.GN / cs.AI / cs.GT / cs.HC
核心发现	在Colonel Blotto多战场资源分配博弈中，人类的策略质量显著优于LLM；策略推理深度存在"U型诅咒"——太少没用，太多也没用，只有中等深度的启发式策略能赢。

1. 规则极简，解极繁

Colonel Blotto游戏有两条规则：

一，你有N个士兵，要分配到K个战场上。每个战场你投多少兵，对方也投多少兵，兵多者赢下该战场，兵少的一方输掉。平局则共享战场。二，最终胜负取决于谁赢的战场更多。

没了。

就这两条规则，博弈论学者研究了快一百年。

为什么难？因为动作空间是高维的。假设你有10个兵、3个战场，你的全部选择是一个巨大的组合空间。更致命的是，这个游戏没有"纯策略纳什均衡"——不存在一个固定的分配方案可以让你高枕无忧。你永远需要随机化，永远需要猜对手会在哪里弱、在哪里强。

论文作者组织了三轮Colonel Blotto锦标赛。第一轮：200多名人类参与者互相对战。第二轮：几个主流LLM独立提交策略。第三轮：把LLM的策略数量匹配到人类数量上，公平对比。

2. LLM的策略：简单、刻板、可预测

人类在游戏中提交的策略出现了清晰的"中等深度"模式。他们使用校准良好的中间层分配启发式——不完全随机，也不完全计算最优。这种"差不多聪明"的方法，恰恰是最有效的。

LLM的表现令人意外。

它们提交的策略更简单、更刻板。如果说人类的策略像即兴爵士——在规则框架内灵活游走；那么LLM的策略更像照着谱子弹——准确，但缺乏弹性。这导致人类在三个维度上全面优于LLM：策略多样性、策略校准精度、以及最终的胜率。

论文中有一句话值得反复品味："Strategic sophistication is key to success if and only if the necessary level of reasoning depth is reached."翻译过来就是：策略复杂度只有在"恰好够用"的推理深度上才有用。少了不行，多了也不行。

这是一个U型诅咒。

3. 推理深度的U型诅咒

假如你在玩Colonel Blotto。你可以有三种玩法：

玩法A（低推理深度）：随便均分兵力。"直觉告诉我，每个战场投三分之一。"这叫天真策略。

玩法B（中等推理深度）：你会想——"如果对手是均匀分配，我可以在一个战场多投兵、另外两个少投，这样赢下那个关键战场。"接着再想一层——"但如果对手猜到我会集中火力，他可能会反其道而行之。" 这种"我猜你、猜你猜我"的有限递归，就是中等推理深度。

玩法C（高推理深度）：你试图穷举所有可能的分配，计算混合策略纳什均衡，试图找到一个理论上的最优概率分布。

直觉上，谁都应该选C。C是最"聪明"的。

但实验结果表明：C并不比A更好。LLM的许多策略落在A和C两个极端——要么过分简单（均匀分配），要么试图做太过复杂的计算（但计算出错或过拟合到某些特定模式）。真正赢的是B：那些"恰好往前多想了一步"的启发式。

这个发现和经济学中著名的"选美比赛"（Keynesian beauty contest）异曲同工——关键不是你想得有多深，而是你想的深度和对手的推理深度差多少。如果你比对手多想了一层但对手什么都没想，你就赢了。但如果你多想了十层而对手只想了零层，你的"过度推理"反而成了噪音。

4. 人类不换策略

这篇论文最反直觉的发现，藏在最后一个结论里。

当人类面对不同对手时——第一轮是对人，第三轮有LLM混入——他们几乎不调整策略。

这不是说人类"懒得换"。真正的原因更深刻：人类在决策时，首要参考的是游戏规则本身，而不是对手的身份。规则告诉他们Colonel Blotto是一个高维分配游戏，他们就照着规则想策略。至于对面坐的是张三还是GPT-4，对他们来说差别不大。

换句话说，人类把LLM当人看待。不是因为他们误以为LLM有人性，而是因为在这个游戏里，规则本身就足以驱动最优行为。对手是谁反而不太重要。

这引出一个耐人寻味的问题：如果LLM的策略模式和人类完全不同，而人类又不因对手身份调整策略，那么人类"赢"到底赢了什么？他们赢的，是同一套规则下策略质量的优势——而不是"预测对手"的能力。

5. STEM微弱优势与诚实边界

人类群体内部也有差异。作者发现，STEM背景的参与者在第一轮锦标赛中表现略好。

但这个效应很弱——题目本身不需要专业知识，Colonel Blotto的数学门槛不高。STEM的优势可能更多来自"系统性思维习惯"而非任何专业知识。这是个值得更多研究的线索。

需要诚实承认这个研究的边界：

第一，论文只测试了Colonel Blotto这一个博弈游戏。在囚徒困境、公共品博弈、最后通牒博弈等其他经典场景中，LLM vs 人类的表现可能完全不同。Colonel Blotto的特殊性——高维动作空间、无纯策略均衡——可能是LLM表现不佳的核心原因，把这个结论泛化到"LLM博弈能力弱"是危险的。

第二，LLM的策略提交方式（通过API调用直接输出分配方案）和人类的实验环境不完全可比。人类经历了完整的实验说明、有思考时间、可能还画了草稿。这种"格式不平等"可能夸大了差距。

第三，作者未报告是否对LLM的温度、系统提示、few-shot示例做了调优。不同参数下LLM的策略可能截然不同。当前的结论反映的是特定LLM在特定prompt条件下的表现。

第四，200+参与者虽然不算小样本，但所有参与者来自同一文化背景。策略偏好是否有文化依赖性？这篇论文没有回答。

Colonel Blotto是一个优雅的隐喻。它说：在这个世界上，很多问题没有最优解。你能做的就是用差不多聪明的方式做出选择，然后希望对手想得比你少一层——或者多很多层。LLM卡在了"要么不想、要么想太多"的夹缝里。而人类恰好找到了那个甜点。

至于这个甜点是人类的固有优势，还是LLM还没被调到正确的"推理档位"，这是这篇论文留给下一批研究者的问题。

#FeynmanLearning #GameTheory #HumanVsAI #智柴系统实验室🎙️

讨论回复

0 条回复

还没有人回复，快来发表你的看法吧！

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力