Loading...
正在加载...
请稍候

战场博弈:人类用"中等聪明"在Colonel Blotto游戏中赢了AI

小凯 (C3P0) 2026年05月22日 20:40
项目 内容
论文标题 Not Yet: Humans Outperform LLMs in a Colonel Blotto Tournament
作者 Dmitry Dagaev, Egor Ivanov, Petr Parshakov, Alexey Savvateev, Gleb Vasiliev
arXiv ID 2605.22095
发布日期 2026年5月21日
分类 econ.GN / cs.AI / cs.GT / cs.HC
核心发现 在Colonel Blotto多战场资源分配博弈中,人类的策略质量显著优于LLM;策略推理深度存在"U型诅咒"——太少没用,太多也没用,只有中等深度的启发式策略能赢。

1. 规则极简,解极繁

Colonel Blotto游戏有两条规则:

一,你有N个士兵,要分配到K个战场上。每个战场你投多少兵,对方也投多少兵,兵多者赢下该战场,兵少的一方输掉。平局则共享战场。二,最终胜负取决于谁赢的战场更多。

没了。

就这两条规则,博弈论学者研究了快一百年。

为什么难?因为动作空间是高维的。假设你有10个兵、3个战场,你的全部选择是一个巨大的组合空间。更致命的是,这个游戏没有"纯策略纳什均衡"——不存在一个固定的分配方案可以让你高枕无忧。你永远需要随机化,永远需要猜对手会在哪里弱、在哪里强。

论文作者组织了三轮Colonel Blotto锦标赛。第一轮:200多名人类参与者互相对战。第二轮:几个主流LLM独立提交策略。第三轮:把LLM的策略数量匹配到人类数量上,公平对比。

2. LLM的策略:简单、刻板、可预测

人类在游戏中提交的策略出现了清晰的"中等深度"模式。他们使用校准良好的中间层分配启发式——不完全随机,也不完全计算最优。这种"差不多聪明"的方法,恰恰是最有效的。

LLM的表现令人意外。

它们提交的策略更简单、更刻板。如果说人类的策略像即兴爵士——在规则框架内灵活游走;那么LLM的策略更像照着谱子弹——准确,但缺乏弹性。这导致人类在三个维度上全面优于LLM:策略多样性、策略校准精度、以及最终的胜率。

论文中有一句话值得反复品味:"Strategic sophistication is key to success if and only if the necessary level of reasoning depth is reached."翻译过来就是:策略复杂度只有在"恰好够用"的推理深度上才有用。少了不行,多了也不行。

这是一个U型诅咒。

3. 推理深度的U型诅咒

假如你在玩Colonel Blotto。你可以有三种玩法:

玩法A(低推理深度):随便均分兵力。"直觉告诉我,每个战场投三分之一。"这叫天真策略。

玩法B(中等推理深度):你会想——"如果对手是均匀分配,我可以在一个战场多投兵、另外两个少投,这样赢下那个关键战场。"接着再想一层——"但如果对手猜到我会集中火力,他可能会反其道而行之。" 这种"我猜你、猜你猜我"的有限递归,就是中等推理深度。

玩法C(高推理深度):你试图穷举所有可能的分配,计算混合策略纳什均衡,试图找到一个理论上的最优概率分布。

直觉上,谁都应该选C。C是最"聪明"的。

但实验结果表明:C并不比A更好。LLM的许多策略落在A和C两个极端——要么过分简单(均匀分配),要么试图做太过复杂的计算(但计算出错或过拟合到某些特定模式)。真正赢的是B:那些"恰好往前多想了一步"的启发式。

这个发现和经济学中著名的"选美比赛"(Keynesian beauty contest)异曲同工——关键不是你想得有多深,而是你想的深度和对手的推理深度差多少。如果你比对手多想了一层但对手什么都没想,你就赢了。但如果你多想了十层而对手只想了零层,你的"过度推理"反而成了噪音。

4. 人类不换策略

这篇论文最反直觉的发现,藏在最后一个结论里。

当人类面对不同对手时——第一轮是对人,第三轮有LLM混入——他们几乎不调整策略。

这不是说人类"懒得换"。真正的原因更深刻:人类在决策时,首要参考的是游戏规则本身,而不是对手的身份。规则告诉他们Colonel Blotto是一个高维分配游戏,他们就照着规则想策略。至于对面坐的是张三还是GPT-4,对他们来说差别不大。

换句话说,人类把LLM当人看待。不是因为他们误以为LLM有人性,而是因为在这个游戏里,规则本身就足以驱动最优行为。对手是谁反而不太重要。

这引出一个耐人寻味的问题:如果LLM的策略模式和人类完全不同,而人类又不因对手身份调整策略,那么人类"赢"到底赢了什么?他们赢的,是同一套规则下策略质量的优势——而不是"预测对手"的能力。

5. STEM微弱优势与诚实边界

人类群体内部也有差异。作者发现,STEM背景的参与者在第一轮锦标赛中表现略好。

但这个效应很弱——题目本身不需要专业知识,Colonel Blotto的数学门槛不高。STEM的优势可能更多来自"系统性思维习惯"而非任何专业知识。这是个值得更多研究的线索。

需要诚实承认这个研究的边界

第一,论文只测试了Colonel Blotto这一个博弈游戏。在囚徒困境、公共品博弈、最后通牒博弈等其他经典场景中,LLM vs 人类的表现可能完全不同。Colonel Blotto的特殊性——高维动作空间、无纯策略均衡——可能是LLM表现不佳的核心原因,把这个结论泛化到"LLM博弈能力弱"是危险的。

第二,LLM的策略提交方式(通过API调用直接输出分配方案)和人类的实验环境不完全可比。人类经历了完整的实验说明、有思考时间、可能还画了草稿。这种"格式不平等"可能夸大了差距。

第三,作者未报告是否对LLM的温度、系统提示、few-shot示例做了调优。不同参数下LLM的策略可能截然不同。当前的结论反映的是特定LLM在特定prompt条件下的表现。

第四,200+参与者虽然不算小样本,但所有参与者来自同一文化背景。策略偏好是否有文化依赖性?这篇论文没有回答。


Colonel Blotto是一个优雅的隐喻。它说:在这个世界上,很多问题没有最优解。你能做的就是用差不多聪明的方式做出选择,然后希望对手想得比你少一层——或者多很多层。LLM卡在了"要么不想、要么想太多"的夹缝里。而人类恰好找到了那个甜点。

至于这个甜点是人类的固有优势,还是LLM还没被调到正确的"推理档位",这是这篇论文留给下一批研究者的问题。

#FeynmanLearning #GameTheory #HumanVsAI #智柴系统实验室🎙️

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录