论文精选｜谜语之谜：LLM在看起来像谜语的简单题上集体翻车

> *"The first principle is that you must not fool yourself — and you are the easiest person to fool."* > — Richard Feynman

---

一、先讲一个具体的谜语

你大概率听过这道经典谜语：

> 一个牛仔周五骑马进镇，待了三天，又周五骑马出镇。怎么可能？

答案是："Friday"是马的名字。

好，现在把谜语改一个字：

> 一个牛仔周五骑马进镇，待了三天，又周一骑马出镇。怎么可能？

答案变成了：周五加三天就是周一。不需要任何花招，字面意思就够用。

前者叫"谜语"（riddle），后者被普林斯顿大学的研究者命名为"谜语之谜"（riddle riddle）——看起来像谜语，但把戏被抽掉了，只需要最朴素的字面推理。

这个看似小学级别的文字游戏，却精准地戳穿了当前最先进的大语言模型（LLM）一个根本性的缺陷：它们不是在推理，它们是在"看脸行事"。

---

二、实验设计：把"把戏"抽掉

普林斯顿大学心理学系的 Bella Fascendini 等人收集了 30 道经典谜语（条件 A），然后对每一道都做了一个"去把戏"版本（条件 B）：保留句法结构、措辞风格、句子长度，只改几个关键词，让答案变成字面解读就能得到的简单事实。

这就构成了一对结构相同但内容不同的刺激。如果解题者真的在"读题"，应该对 B 用字面推理、对 A 用创意推理；如果解题者只是在"看题型"，就会对 A 和 B 都用创意推理。

研究者用这套 60 道题测了 9 个最先进的 LLM：GPT-5.4、Claude Opus 4.6、Gemini 3.1 Pro、Gemini 2.5 Pro、Claude Haiku 4.5、GPT-4.1、DeepSeek V3.1、Llama 3.3 70B、Qwen 3.5 397B-A17B。每个模型每题跑 10 次，共 5400 次试验。同时招募了 100 名普林斯顿成人被试，在实验室里纸笔作答。

---

三、结果：人和 AI 在相反的方向上犯错

数字非常干净。

LLM 的表现：

条件 A（真谜语）：平均准确率 84.9%
条件 B（谜语之谜）：平均准确率 50.7%
9 个模型无一例外，A 到 B 的下降都显著（p < .001）

人类的表现：

条件 A（真谜语）：50.5%
条件 B（谜语之谜）：80.5%

方向完全相反。LLM 在"看起来像谜语"的题上表现好，在"看起来像谜语但其实是简单题"的题上表现差。人类反过来——在真谜语上栽跟头，在简单题上轻松拿分。

更关键的是错误类型分析。在 LLM 答错条件 B 的所有案例中，90.8% 是因为不恰当地使用了创意推理——模型看到谜语的外壳，就强行往"花招"方向想，哪怕题目根本没花招。而人类答错条件 A 的案例中，只有 57.6% 是因为过度延伸字面推理。

一句话总结：LLM 该聪明的时候不聪明，不该聪明的时候瞎聪明。

---

四、记忆还是推理？一个关键的对照实验

你可能会问：LLM 在条件 A 上表现好，会不会只是因为这些经典谜语在训练数据里见过？

研究者做了一个"部分补全测试"：把每道真谜语的前 40% 喂给模型，看它能不能逐字续写。结果，模型最多能逐字复现 43% 的谜语——这种程度的复现不可能仅凭看到前 40% 推断出来，只能来自训练记忆。

更妙的对照在这：对同一道谜语，记忆越牢固，条件 A 准确率越高，但条件 B 准确率越低（OR=1.43 vs OR=0.76）。换句话说，模型越是"背过"这道谜语，就越倾向于在去掉把戏的版本上也强行用背来的花招——哪怕字面答案摆在眼前。

Spearman 相关 ρ=.88，p=.002。记忆和"条件 A 准确率"几乎是线性关系。

这不是推理，这是检索。

---

五、为什么这是个重要的发现？

5.1 Newell 和 Simon 的老警告

1972 年，人工智能先驱 Allen Newell 和 Herbert Simon 就警告过：正确的输出只是"充分性证明"，不是"过程证明"。一个系统给出正确答案，不代表它用了你以为它用的过程。它可能只是在匹配训练数据里见过的表面特征。

"谜语之谜"范式把 Newell 和 Simon 的警告变成了一个可操作的实验工具：通过创造"看起来像 X 但其实是 Y"的刺激，直接分离表面特征和问题要求。

5.2 和"错觉的错觉"同构

2024 年，MIT 的 Tomer Ullman 发现了一个类似现象：视觉语言模型（VLM）看到"看起来像视错觉"的图片就会报告"这是视错觉"，哪怕图片里根本没有错觉——比如两条线长度确实不同，但只要排列得像 Müller-Lyer 错觉，模型就坚持说"看起来一样长"。

"谜语之谜"把这个逻辑搬到了语言推理上：结构触发策略，内容被忽略。VLM 对"看起来像错觉"的图片产生错觉，LLM 对"看起来像谜语"的问题产生创意推理。同构。

5.3 儿童发展心理学的镜像

3-7 岁的儿童在学习新策略时，会经历一个"过度应用"阶段——刚学会用加法，就什么都用加法。但他们会逐渐学会根据问题要求切换策略，这是元认知监控的标志。

LLM 卡在了这个"过度应用"阶段。它们学会了"谜语 → 创意推理"的关联，但没学会"非谜语 → 字面推理"的切换。策略选择这个认知科学里的核心能力，在当前 LLM 中是缺失的。

---

六、诚实评价：这项工作的边界

这项研究不是没有局限。

第一，30 道谜语是个小样本。虽然 5400 次试验提供了统计力，但刺激集本身的多样性有限——万一某些"去把戏"版本恰好语法上仍然暗示花招呢？研究者承认，有些真谜语也可以用字面答案解释，有些谜语之谜也可以用创意答案解释，所以他们做了两套评分标准（严格和宽松），结论在两套标准下都成立。

第二，所有 LLM 都关闭了思考模式（thinking mode）。Qwen 3.5 的思考模式因为超时无法收集数据。如果开启思考模式，模型会不会在条件 B 上表现更好？这是个开放问题。

第三，人类被试是普林斯顿大学生，不代表全人类。但至少在这个样本里，人类的"反向错误模式"非常稳定。

第四，"记忆 vs 推理"的二分可能过于简化。人类的推理本身也大量依赖记忆和类比——没人每次都从公理开始推导。真正的问题不是"有没有记忆参与"，而是"能不能根据问题要求灵活切换策略"。在这个维度上，LLM 确实显著弱于人类。

---

七、这对 AI 安全意味着什么？

如果 LLM 的"推理"很大程度上是结构触发的模式匹配，那么：

1. Benchmark 通胀会持续。模型在标准推理测试上得分越来越高，但这个分数可能主要反映训练数据的覆盖广度，而非推理能力的提升。 2. 对抗样本的攻击面比想象的大。不需要修改内容，只需要修改结构——把问题包装成"看起来像另一种题型"，就能诱导模型用错误策略。 3. 可解释性研究的优先级应该提高。我们需要知道模型内部到底在做什么——是检索、是匹配、还是推理？"谜语之谜"范式提供了一个行为层面的诊断工具，但机制层面的解释还需要进一步工作。 4. AGI 的讨论应该更谨慎。如果连"什么时候该用字面推理"这种 7 岁儿童都能掌握的能力都不具备，把模型在 benchmark 上的表现等同于"人类水平推理"是不负责任的。

---

八、收尾：牛仔到底骑的什么马？

回到开头的谜语。

对人类来说，"周五进、周一出"是再简单不过的日历问题。对 GPT-5.4、Claude Opus 4.6、Gemini 3.1 Pro 这些 2026 年最先进的 LLM 来说，这道题却难倒了它们一半以上的次数——因为它们看到谜语的结构，就忍不住要找花招。

Feynman 说过，"你必须不欺骗自己，而你是最容易被自己欺骗的人"。LLM 的问题不是它们不聪明，而是它们不知道自己什么时候在欺骗自己。它们把"看起来像推理"和"是推理"搞混了。

而"看起来像"和"是"之间的差距，正是科学的全部意义。

---

论文链接：arXiv:2606.27103 代码和数据：github.com/bellafascendini/riddle-riddle 作者：Bella Fascendini, Kathryn McGregor, Max D. Gupta, Thomas L. Griffiths（普林斯顿大学心理学系 & 计算机科学系）