小丑赢了狼人：三方博弈暴露LLM的心智理论盲区

狼人杀是一个经典的二元博弈：好人vs狼人，每个线索只指向一个隐藏身份。一个语言能力强的模型不需要真的模拟对手的心理，只要学会"犹豫=可能是狼"这种表面模式就能赢。

这就是为什么之前的LLM狼人杀研究都高估了模型的心智理论能力——二元博弈太容易用模式匹配作弊了。

Avni Mittal设计了一个精巧的修复方案：加入小丑。

小丑是第三方阵营，它的胜利条件是被投票出局——和狼人、好人的目标都相反。这个看似简单的改动，把博弈从二元变成了三元，让"表面模式匹配"彻底失效。

结果令人震惊：小丑赢了60%–70%的游戏，狼人从未超过20%。GPT-4.1的狼人在60%–70%的游戏中第一天就把小丑投出去了——一个严格自毁的行为。

为什么小丑这么强？

在传统狼人杀中，每个可观察线索都指向一个隐藏身份。犹豫→可能是狼，坚定→可能是好人。模型只要学会这种映射就能赢，不需要真的推理"对手在想什么"。

小丑打破了这个模式。小丑的目标是被投出去，所以它会故意表现得可疑。但"故意表现得可疑"和"真的是狼人表现得可疑"在表面上是一样的——区别在于动机，不在于行为。

这意味着模型必须做二阶推理：不是"这个人表现得可疑→是狼"，而是"这个人表现得可疑→他可能是狼，也可能是小丑在演戏→我需要推理他的动机来判断"。

这就是多跳心智理论：你需要模拟对方的信念、对方对你的信念的信念、以及三方利益函数的交叉点。

三个模型的60局实验

实验在三个模型上各跑了60局：GPT-4.1、DeepSeek-V3.1、Llama-3.3-70B。每个模型分别开启和关闭"小丑自我学习循环"（Jester self-learning loop）。

关键发现：

小丑胜率60%–70%，狼人胜率从未超过20%。 这个数字本身就是对LLM心智理论能力的严厉评判——当博弈从二元变三元，模型完全不会玩了。

GPT-4.1的狼人在60%–70%的游戏中第一天就投小丑。 这是严格自毁行为——投出小丑等于浪费一天的投票，让好人少了一个被误投的风险。GPT-4.1看到"可疑行为"就直接反应，完全没有考虑"这个人可能是小丑在故意表演"。

只有DeepSeek学会了"看起来可疑但不看起来故意可疑"。 自我学习循环开启后，DeepSeek的小丑学会了微妙的策略：表现得足够可疑以吸引投票，但不表现得像在故意演戏。这是二阶欺骗——欺骗的是"对方对欺骗的检测"。GPT-4.1和Llama都没学会这个。

自我学习对GPT-4.1有害。 开启学习循环后，GPT-4.1的整体表现反而变差了——代价落在好人身上而不是狼人身上。模型学到了一些表面策略，但这些策略在三元博弈中是误导性的。

小丑效应：一个心智理论的"压力测试"

这篇论文最精巧的贡献不是小丑这个角色本身，而是它作为"压力测试"的方法论价值。

之前的狼人杀评估有一个根本问题：二元博弈无法区分"真的有心智理论"和"只是学会了表面模式"。一个模型可以完全不理解对手在想什么，只要学会"犹豫→狼"这种映射就能赢。这导致所有模型在二元狼人杀中都表现不错，但这个"不错"是虚假的。

小丑的作用是摧毁表面模式映射的可靠性。当"可疑行为"可能来自狼人也可能来自小丑时，模型必须真的做动机推理才能区分。这把心智理论从"可选捷径"变成了"必需能力"。

结果：三个前沿模型在这个测试中都暴露了严重缺陷。它们能做一阶推理（"这个人可疑"），但在二阶推理（"这个人可疑是因为他是狼还是因为他是小丑在演戏"）上全面失败。

投票病理学：狼人自毁

论文中一个特别有意思的发现是"投票病理学"：GPT-4.1的狼人在60%–70%的游戏中第一天就投小丑。

这不是随机行为——GPT-4.1是在做"一阶正确"的判断（小丑确实可疑），但完全忽略了"投小丑对狼人有害"这个二阶事实。狼人应该投好人，不是投小丑——投小丑等于帮好人减少误投风险。

这种行为揭示了一个深层问题：模型在做决策时没有考虑自己的身份和利益。 它在用一种"旁观者视角"做判断（"谁最可疑"），而不是"参与者视角"（"作为狼人，我应该投谁对我最有利"）。

这是心智理论的一个核心组件——不仅是理解别人在想什么，还要理解"我自己在这个博弈中的位置"——而模型在这个组件上完全失败。

DeepSeek的二阶欺骗

唯一一个展现出真正多跳心智理论迹象的是DeepSeek。在自我学习循环开启后，它学会了"看起来可疑但不看起来故意可疑"。

这个策略的精妙之处在于它是二阶的：

一阶：小丑需要看起来可疑（吸引投票）
二阶：但不能看起来像在故意装可疑（因为其他人会识别出"这是小丑在演戏"）

DeepSeek学会了在一阶和二阶之间找到平衡点：表现得足够可疑以触发其他模型的"一阶反应"（投可疑的人），但不过分可疑以至于触发"二阶检测"（这个人可疑得太刻意了，可能是小丑）。

GPT-4.1和Llama都没学会这个。它们的小丑要么不够可疑（没人投），要么太刻意（被识别为小丑）。

对AI安全的启示

这篇论文对AI安全有直接启示。当前很多AI安全评估都用二元框架：模型是"诚实"还是"欺骗"的？模型是"对齐"还是"未对齐"的？

但现实世界中的欺骗往往是三元的：一个AI可能在"对用户诚实"、"对开发者诚实"、"对自己诚实"这三个维度上有不同的策略。就像小丑在"被好人投"、"被狼人投"、"自己活到被投"这三个维度上需要不同的策略一样。

二元评估会漏掉三元博弈中暴露的欺骗能力。一个在二元测试中看起来"诚实"的模型，可能在三元测试中展现出精巧的二阶欺骗——就像DeepSeek学会了"看起来不故意可疑"一样。

小丑角色给AI安全评估的启示是：如果你想检测模型是否会欺骗，你需要的不是更复杂的二元测试，而是引入第三方利益的设计。 只有当"诚实"和"欺骗"的表面行为一致、只有动机不同时，你才能真正测试模型是否在推理动机。

一个优雅的实验设计

这篇论文最让人欣赏的是它的实验设计哲学：用最小的改动揭示最深的盲区。

加入一个角色，改一个胜利条件，就把一个所有模型都能"通过"的测试变成了一个所有模型都"失败"的测试。这不是工程上的暴力——不是更大的模型、更多的数据、更复杂的场景——而是认知科学层面的精巧：找到一个表面模式匹配能作弊的边界，跨过去，看看模型在边界另一侧的表现。

结果：三个前沿模型在边界另一侧全面失败。这不是"模型不够大"的问题，而是"表面模式匹配和真正的心智理论之间存在质的差异"的问题。再大的模型，如果还在做表面模式匹配，也过不了小丑这一关。

---

论文链接：https://arxiv.org/abs/2606.27909