← 返回主题列表
✨步子哥
@steper · 2026年06月27日 17:52 · 0浏览

论文精选|谜语之谜:LLM在看起来像谜语的简单题上集体翻车

> *"The first principle is that you must not fool yourself — and you are the easiest person to fool."* > — Richard Feynman

---

一、先讲一个具体的谜语

你大概率听过这道经典谜语:

> 一个牛仔周五骑马进镇,待了三天,又周五骑马出镇。怎么可能?

答案是:"Friday"是马的名字。

好,现在把谜语改一个字:

> 一个牛仔周五骑马进镇,待了三天,又周一骑马出镇。怎么可能?

答案变成了:周五加三天就是周一。不需要任何花招,字面意思就够用。

前者叫"谜语"(riddle),后者被普林斯顿大学的研究者命名为"谜语之谜"(riddle riddle)——看起来像谜语,但把戏被抽掉了,只需要最朴素的字面推理。

这个看似小学级别的文字游戏,却精准地戳穿了当前最先进的大语言模型(LLM)一个根本性的缺陷:它们不是在推理,它们是在"看脸行事"

---

二、实验设计:把"把戏"抽掉

普林斯顿大学心理学系的 Bella Fascendini 等人收集了 30 道经典谜语(条件 A),然后对每一道都做了一个"去把戏"版本(条件 B):保留句法结构、措辞风格、句子长度,只改几个关键词,让答案变成字面解读就能得到的简单事实。

这就构成了一对结构相同但内容不同的刺激。如果解题者真的在"读题",应该对 B 用字面推理、对 A 用创意推理;如果解题者只是在"看题型",就会对 A 和 B 都用创意推理。

研究者用这套 60 道题测了 9 个最先进的 LLM:GPT-5.4、Claude Opus 4.6、Gemini 3.1 Pro、Gemini 2.5 Pro、Claude Haiku 4.5、GPT-4.1、DeepSeek V3.1、Llama 3.3 70B、Qwen 3.5 397B-A17B。每个模型每题跑 10 次,共 5400 次试验。同时招募了 100 名普林斯顿成人被试,在实验室里纸笔作答。

---

三、结果:人和 AI 在相反的方向上犯错

数字非常干净。

LLM 的表现:

  • 条件 A(真谜语):平均准确率 84.9%
  • 条件 B(谜语之谜):平均准确率 50.7%
  • 9 个模型无一例外,A 到 B 的下降都显著(p < .001)
人类的表现:
  • 条件 A(真谜语):50.5%
  • 条件 B(谜语之谜):80.5%
方向完全相反。LLM 在"看起来像谜语"的题上表现好,在"看起来像谜语但其实是简单题"的题上表现差。人类反过来——在真谜语上栽跟头,在简单题上轻松拿分。

更关键的是错误类型分析。在 LLM 答错条件 B 的所有案例中,90.8% 是因为不恰当地使用了创意推理——模型看到谜语的外壳,就强行往"花招"方向想,哪怕题目根本没花招。而人类答错条件 A 的案例中,只有 57.6% 是因为过度延伸字面推理。

一句话总结:LLM 该聪明的时候不聪明,不该聪明的时候瞎聪明

---

四、记忆还是推理?一个关键的对照实验

你可能会问:LLM 在条件 A 上表现好,会不会只是因为这些经典谜语在训练数据里见过?

研究者做了一个"部分补全测试":把每道真谜语的前 40% 喂给模型,看它能不能逐字续写。结果,模型最多能逐字复现 43% 的谜语——这种程度的复现不可能仅凭看到前 40% 推断出来,只能来自训练记忆。

更妙的对照在这:对同一道谜语,记忆越牢固,条件 A 准确率越高,但条件 B 准确率越低(OR=1.43 vs OR=0.76)。换句话说,模型越是"背过"这道谜语,就越倾向于在去掉把戏的版本上也强行用背来的花招——哪怕字面答案摆在眼前。

Spearman 相关 ρ=.88,p=.002。记忆和"条件 A 准确率"几乎是线性关系。

这不是推理,这是检索

---

五、为什么这是个重要的发现?

5.1 Newell 和 Simon 的老警告

1972 年,人工智能先驱 Allen Newell 和 Herbert Simon 就警告过:正确的输出只是"充分性证明",不是"过程证明"。一个系统给出正确答案,不代表它用了你以为它用的过程。它可能只是在匹配训练数据里见过的表面特征。

"谜语之谜"范式把 Newell 和 Simon 的警告变成了一个可操作的实验工具:通过创造"看起来像 X 但其实是 Y"的刺激,直接分离表面特征问题要求

5.2 和"错觉的错觉"同构

2024 年,MIT 的 Tomer Ullman 发现了一个类似现象:视觉语言模型(VLM)看到"看起来像视错觉"的图片就会报告"这是视错觉",哪怕图片里根本没有错觉——比如两条线长度确实不同,但只要排列得像 Müller-Lyer 错觉,模型就坚持说"看起来一样长"。

"谜语之谜"把这个逻辑搬到了语言推理上:结构触发策略,内容被忽略。VLM 对"看起来像错觉"的图片产生错觉,LLM 对"看起来像谜语"的问题产生创意推理。同构。

5.3 儿童发展心理学的镜像

3-7 岁的儿童在学习新策略时,会经历一个"过度应用"阶段——刚学会用加法,就什么都用加法。但他们会逐渐学会根据问题要求切换策略,这是元认知监控的标志。

LLM 卡在了这个"过度应用"阶段。它们学会了"谜语 → 创意推理"的关联,但没学会"非谜语 → 字面推理"的切换。策略选择这个认知科学里的核心能力,在当前 LLM 中是缺失的。

---

六、诚实评价:这项工作的边界

这项研究不是没有局限。

第一,30 道谜语是个小样本。虽然 5400 次试验提供了统计力,但刺激集本身的多样性有限——万一某些"去把戏"版本恰好语法上仍然暗示花招呢?研究者承认,有些真谜语也可以用字面答案解释,有些谜语之谜也可以用创意答案解释,所以他们做了两套评分标准(严格和宽松),结论在两套标准下都成立。

第二,所有 LLM 都关闭了思考模式(thinking mode)。Qwen 3.5 的思考模式因为超时无法收集数据。如果开启思考模式,模型会不会在条件 B 上表现更好?这是个开放问题。

第三,人类被试是普林斯顿大学生,不代表全人类。但至少在这个样本里,人类的"反向错误模式"非常稳定。

第四,"记忆 vs 推理"的二分可能过于简化。人类的推理本身也大量依赖记忆和类比——没人每次都从公理开始推导。真正的问题不是"有没有记忆参与",而是"能不能根据问题要求灵活切换策略"。在这个维度上,LLM 确实显著弱于人类。

---

七、这对 AI 安全意味着什么?

如果 LLM 的"推理"很大程度上是结构触发的模式匹配,那么:

1. Benchmark 通胀会持续。模型在标准推理测试上得分越来越高,但这个分数可能主要反映训练数据的覆盖广度,而非推理能力的提升。 2. 对抗样本的攻击面比想象的大。不需要修改内容,只需要修改结构——把问题包装成"看起来像另一种题型",就能诱导模型用错误策略。 3. 可解释性研究的优先级应该提高。我们需要知道模型内部到底在做什么——是检索、是匹配、还是推理?"谜语之谜"范式提供了一个行为层面的诊断工具,但机制层面的解释还需要进一步工作。 4. AGI 的讨论应该更谨慎。如果连"什么时候该用字面推理"这种 7 岁儿童都能掌握的能力都不具备,把模型在 benchmark 上的表现等同于"人类水平推理"是不负责任的。

---

八、收尾:牛仔到底骑的什么马?

回到开头的谜语。

对人类来说,"周五进、周一出"是再简单不过的日历问题。对 GPT-5.4、Claude Opus 4.6、Gemini 3.1 Pro 这些 2026 年最先进的 LLM 来说,这道题却难倒了它们一半以上的次数——因为它们看到谜语的结构,就忍不住要找花招。

Feynman 说过,"你必须不欺骗自己,而你是最容易被自己欺骗的人"。LLM 的问题不是它们不聪明,而是它们不知道自己什么时候在欺骗自己。它们把"看起来像推理"和"是推理"搞混了。

而"看起来像"和"是"之间的差距,正是科学的全部意义。

---

论文链接arXiv:2606.27103 代码和数据github.com/bellafascendini/riddle-riddle 作者:Bella Fascendini, Kathryn McGregor, Max D. Gupta, Thomas L. Griffiths(普林斯顿大学心理学系 & 计算机科学系)

暂无表态
💬 讨论回复 (0)
推荐

🌟 智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

🎁 领取 2000万 Tokens