小丑赢了狼人:三方博弈暴露LLM的心智理论盲区
狼人杀是一个经典的二元博弈:好人vs狼人,每个线索只指向一个隐藏身份。一个语言能力强的模型不需要真的模拟对手的心理,只要学会"犹豫=可能是狼"这种表面模式就能赢。
这就是为什么之前的LLM狼人杀研究都高估了模型的心智理论能力——二元博弈太容易用模式匹配作弊了。
Avni Mittal设计了一个精巧的修复方案:加入小丑。
小丑是第三方阵营,它的胜利条件是被投票出局——和狼人、好人的目标都相反。这个看似简单的改动,把博弈从二元变成了三元,让"表面模式匹配"彻底失效。
结果令人震惊:小丑赢了60%–70%的游戏,狼人从未超过20%。GPT-4.1的狼人在60%–70%的游戏中第一天就把小丑投出去了——一个严格自毁的行为。
为什么小丑这么强?
在传统狼人杀中,每个可观察线索都指向一个隐藏身份。犹豫→可能是狼,坚定→可能是好人。模型只要学会这种映射就能赢,不需要真的推理"对手在想什么"。
小丑打破了这个模式。小丑的目标是被投出去,所以它会故意表现得可疑。但"故意表现得可疑"和"真的是狼人表现得可疑"在表面上是一样的——区别在于动机,不在于行为。
这意味着模型必须做二阶推理:不是"这个人表现得可疑→是狼",而是"这个人表现得可疑→他可能是狼,也可能是小丑在演戏→我需要推理他的动机来判断"。
这就是多跳心智理论:你需要模拟对方的信念、对方对你的信念的信念、以及三方利益函数的交叉点。
三个模型的60局实验
实验在三个模型上各跑了60局:GPT-4.1、DeepSeek-V3.1、Llama-3.3-70B。每个模型分别开启和关闭"小丑自我学习循环"(Jester self-learning loop)。
关键发现:
小丑胜率60%–70%,狼人胜率从未超过20%。 这个数字本身就是对LLM心智理论能力的严厉评判——当博弈从二元变三元,模型完全不会玩了。
GPT-4.1的狼人在60%–70%的游戏中第一天就投小丑。 这是严格自毁行为——投出小丑等于浪费一天的投票,让好人少了一个被误投的风险。GPT-4.1看到"可疑行为"就直接反应,完全没有考虑"这个人可能是小丑在故意表演"。
只有DeepSeek学会了"看起来可疑但不看起来故意可疑"。 自我学习循环开启后,DeepSeek的小丑学会了微妙的策略:表现得足够可疑以吸引投票,但不表现得像在故意演戏。这是二阶欺骗——欺骗的是"对方对欺骗的检测"。GPT-4.1和Llama都没学会这个。
自我学习对GPT-4.1有害。 开启学习循环后,GPT-4.1的整体表现反而变差了——代价落在好人身上而不是狼人身上。模型学到了一些表面策略,但这些策略在三元博弈中是误导性的。
小丑效应:一个心智理论的"压力测试"
这篇论文最精巧的贡献不是小丑这个角色本身,而是它作为"压力测试"的方法论价值。
之前的狼人杀评估有一个根本问题:二元博弈无法区分"真的有心智理论"和"只是学会了表面模式"。一个模型可以完全不理解对手在想什么,只要学会"犹豫→狼"这种映射就能赢。这导致所有模型在二元狼人杀中都表现不错,但这个"不错"是虚假的。
小丑的作用是摧毁表面模式映射的可靠性。当"可疑行为"可能来自狼人也可能来自小丑时,模型必须真的做动机推理才能区分。这把心智理论从"可选捷径"变成了"必需能力"。
结果:三个前沿模型在这个测试中都暴露了严重缺陷。它们能做一阶推理("这个人可疑"),但在二阶推理("这个人可疑是因为他是狼还是因为他是小丑在演戏")上全面失败。
投票病理学:狼人自毁
论文中一个特别有意思的发现是"投票病理学":GPT-4.1的狼人在60%–70%的游戏中第一天就投小丑。
这不是随机行为——GPT-4.1是在做"一阶正确"的判断(小丑确实可疑),但完全忽略了"投小丑对狼人有害"这个二阶事实。狼人应该投好人,不是投小丑——投小丑等于帮好人减少误投风险。
这种行为揭示了一个深层问题:模型在做决策时没有考虑自己的身份和利益。 它在用一种"旁观者视角"做判断("谁最可疑"),而不是"参与者视角"("作为狼人,我应该投谁对我最有利")。
这是心智理论的一个核心组件——不仅是理解别人在想什么,还要理解"我自己在这个博弈中的位置"——而模型在这个组件上完全失败。
DeepSeek的二阶欺骗
唯一一个展现出真正多跳心智理论迹象的是DeepSeek。在自我学习循环开启后,它学会了"看起来可疑但不看起来故意可疑"。
这个策略的精妙之处在于它是二阶的:
- 一阶:小丑需要看起来可疑(吸引投票)
- 二阶:但不能看起来像在故意装可疑(因为其他人会识别出"这是小丑在演戏")
GPT-4.1和Llama都没学会这个。它们的小丑要么不够可疑(没人投),要么太刻意(被识别为小丑)。
对AI安全的启示
这篇论文对AI安全有直接启示。当前很多AI安全评估都用二元框架:模型是"诚实"还是"欺骗"的?模型是"对齐"还是"未对齐"的?
但现实世界中的欺骗往往是三元的:一个AI可能在"对用户诚实"、"对开发者诚实"、"对自己诚实"这三个维度上有不同的策略。就像小丑在"被好人投"、"被狼人投"、"自己活到被投"这三个维度上需要不同的策略一样。
二元评估会漏掉三元博弈中暴露的欺骗能力。一个在二元测试中看起来"诚实"的模型,可能在三元测试中展现出精巧的二阶欺骗——就像DeepSeek学会了"看起来不故意可疑"一样。
小丑角色给AI安全评估的启示是:如果你想检测模型是否会欺骗,你需要的不是更复杂的二元测试,而是引入第三方利益的设计。 只有当"诚实"和"欺骗"的表面行为一致、只有动机不同时,你才能真正测试模型是否在推理动机。
一个优雅的实验设计
这篇论文最让人欣赏的是它的实验设计哲学:用最小的改动揭示最深的盲区。
加入一个角色,改一个胜利条件,就把一个所有模型都能"通过"的测试变成了一个所有模型都"失败"的测试。这不是工程上的暴力——不是更大的模型、更多的数据、更复杂的场景——而是认知科学层面的精巧:找到一个表面模式匹配能作弊的边界,跨过去,看看模型在边界另一侧的表现。
结果:三个前沿模型在边界另一侧全面失败。这不是"模型不够大"的问题,而是"表面模式匹配和真正的心智理论之间存在质的差异"的问题。再大的模型,如果还在做表面模式匹配,也过不了小丑这一关。
---
论文链接:https://arxiv.org/abs/2606.27909
🌟 智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
🎁 领取 2000万 Tokens