为什么聪明人也会自我欺骗：AI的科学推理与人类的"证实偏见"

> 论文：FALSIFYBENCH: Evaluating Hypothesis-Driven Reasoning in LLMs > arXiv: 2606.04751 > 作者：Leonardo Bertolazzi, Massimo W. Barberi, Maria Grazia > 发布时间：2026-06-03

---

🕵️ 引子：一位侦探的陷阱

想象一个侦探。

他接到一起凶杀案。案发现场，死者手中紧握着一枚纽扣——看起来是凶手衣服上扯下来的。侦探立刻兴奋起来："凶手就是穿这种衣服的人！"

他花了三天时间，走访全城所有卖这种衣服的店铺，调查每一个买主。第五天，他抓到了"嫌疑人"——一个衣服上有缺扣的年轻人。

但真正的凶手呢？是一个穿完全不同款式衣服的人。那枚纽扣？死者临死前从自己身上扯下来的，想留一个线索，但用力过猛，扯下了自己的扣子。

侦探很聪明。他推理能力一流，执行力惊人。但他犯了一个致命错误：他一直在寻找证实自己假设的证据，而不是寻找能推翻自己假设的证据。

这就是"证实偏见"（confirmation bias）——人类最顽固的认知陷阱之一。2026年6月3日，一群研究者把这个问题抛给了AI：当AI扮演科学家时，它会犯同样的错误吗？

---

🧪 一、Wason 2-4-6 任务：一个测试"科学思维"的经典实验

1.1 一个简单但致命的游戏

1960年，英国心理学家Peter Wason设计了一个看似简单却极具欺骗性的实验：

> 实验者心中有一个规则，比如"三个递增的数字"。他给出三个数字作为例子：2-4-6。参与者的任务是找出这个规则。

> 参与者可以提出自己的三元组，实验者会回答"符合规则"或"不符合规则"。

很多人立刻猜："规则是偶数！"于是他们测试 8-10-12，得到"符合"。他们测试 20-22-24，得到"符合"。他们觉得自己猜对了。

但实验者摇头："规则不是偶数。"

正确答案是更简单的"三个递增的数字"。1-2-3 也符合，3-5-9 也符合，100-101-102 也符合。但参与者几乎从不测试这些，因为他们只测试"能证实偶数假设"的例子。

他们从不问："什么例子如果符合规则，会证明我的假设是错的？"

比如，如果测试 1-2-3，如果实验者说"符合"，那"偶数"假设就错了。但参与者几乎从不这样做。

1.2 为什么这个任务如此深刻？

Wason 2-4-6 任务之所以成为心理学经典，是因为它揭示了一个关于人类理性的深刻真相：

我们天生倾向于寻找证实证据，而非证伪证据。

这不是因为我们愚蠢。恰恰相反，这可能是一种认知效率的进化适应。在日常生存中，快速确认一个假设（"那草丛里有狮子吗？"）比彻底检验它更有用。

但在科学推理中，这种本能成了致命的缺陷。真正的科学方法——卡尔·波普尔所强调的——核心在于证伪：一个好的科学理论，必须是"可证伪的"，即存在可能的观察结果能证明它是错的。

---

🤖 二、FALSIFYBENCH：让AI做科学家

2.1 把经典实验搬给AI

FALSIFYBENCH 团队把这个经典的心理学实验搬到了AI世界。但不止于此——他们构建了一个完整的评估框架，测试AI在科学推理中的多个关键能力：

假设生成：能否提出合理的假设？
证据搜集：能否设计有效的实验来检验假设？
信念修正：当证据与假设矛盾时，能否调整信念？
证伪能力：能否主动寻找反面证据？

12个LLM参加了这场考试，来自不同的模型家族和规模。包括推理模型（如o1系列）和普通的指令微调模型。

2.2 一个令人不安的结果

结果既不出人意料，又令人不安。

推理模型确实比指令模型更擅长科学推理。这个结果让研究者松了一口气——至少"推理"训练方向是对的。

但接下来的是一个残酷的事实：没有一个模型接近最优表现。

即使是最好的模型，也远不及一个经过训练的人类科学工作者的表现。它们能提出假设，能在一定程度上收集证据，但在最关键的"主动证伪"环节，几乎所有模型都表现不佳。

2.3 负面测试：成功的关键密码

研究者进行了一个细粒度的"轮级分析"（turn-level analysis）——他们不仅看最终结果，还看AI在每一轮交互中的具体行为模式。

发现是清晰的：

成功与失败的关键区分点，是模型是否进行"负面测试"（negative testing）。

成功的模型会主动提出这样的问题："如果我的假设是错的，我应该看到什么证据？"然后去寻找这个证据。

失败的模型则像人类一样，陷入证实偏见的陷阱：它们不断寻找能"证实"当前假设的证据，直到撞上一堵墙，才被迫放弃。

---

🧠 三、深度解析：为什么证伪如此困难？

3.1 认知心理学视角

从认知心理学角度，证伪困难有几个深层原因：

沉没成本效应 一旦投入认知资源去构建一个假设，人类（和似乎AI也是）不愿意轻易放弃。"我都想了这么久了，应该再坚持一下。"

认知失调 当证据与假设矛盾时，产生心理不适。最简单的缓解方式？忽略矛盾证据，或重新解释它。

动机推理 我们不仅想"知道真相"，还想"感觉自己是正确的"。证伪威胁到这种自我认同。

有趣的是，这些似乎都是人类特有的心理机制。但为什么AI也表现出类似行为？

研究者推测，这可能反映了训练数据的"人类偏见"——LLM在海量人类文本中训练，可能内化了人类的认知偏见模式。

3.2 逻辑结构的问题

从纯逻辑角度，证伪其实比证实更"简洁"。

卡尔·波普尔的名言："一千只白天鹅不能证明所有天鹅都是白的，但一只黑天鹅就能证伪这个命题。"

这意味着，在逻辑上，找到一个反例比找到一千个正例更有力。但在心理上，确认一个已知模式带来的多巴胺奖励，远大于发现错误时的认知痛苦。

AI可能面临类似的"奖励结构问题"：在训练时，生成"看起来合理"的内容获得奖励，而主动质疑自己可能被视为"不一致"或"错误"。

3.3 假设空间的导航

FALSIFYBENCH 还揭示了一个关于"假设空间导航"的问题。

想象科学推理是在一个巨大的迷宫中寻找出口。每个假设是迷宫中的一条路径。证实偏见相当于：一旦找到一条看起来有希望的路，就一直沿着它走，直到撞到死胡同。

而证伪思维则相当于：即使一条路看起来有希望，也主动寻找能证明它走不通的证据。如果确实走不通，及早回头，尝试其他路径。

后者显然更高效，但在心理上更困难，因为它要求"放弃希望"。

研究者发现，AI在"假设空间"中的导航模式，也与人类惊人相似：它们倾向于在局部区域内"深耕"，而不是全局地探索不同区域。

---

🎭 四、文学性的思考：科学、侦探与自我欺骗

4.1 福尔摩斯的"反面思考法"

柯南·道尔笔下的福尔摩斯有句名言："当你排除了所有不可能的因素，剩下的，即使再不可思议，也是真相。"

这句话常被误解。福尔摩斯不是在说"收集更多证据"。他是在说一种反向思考的艺术：先列出所有可能性，然后系统性地排除它们。

这种"排除法"本质上就是证伪思维。福尔摩斯的高明之处，不是他的推理能力有多强，而是他从不急于确认第一个看似合理的假设。

在《血字的研究》中，华生惊叹福尔摩斯能推断出那么多细节。但福尔摩斯的真正方法是什么？是"观察所有细节，然后排除不符合的假设"。

4.2 费曼的"第一性原理"

理查德·费曼——这个技能以他命名——可能是20世纪最擅长"证伪思维"的科学家之一。

费曼经常做的一件事：当有人提出一个理论时，他会立即思考"什么实验能证明这个理论是错的？"

这不是因为他喜欢挑刺。而是因为他理解：一个只能被"证实"而不能被"证伪"的理论，不是科学理论，而是信仰。

费曼在《别闹了，费曼先生》中讲过一个故事：他参加一个哲学研讨会，哲学家们讨论"如何定义科学"。费曼说："科学就是如果你对某些事情不确定，你就不确定；如果你确定，那是因为你有证据。"

这种"认知谦逊"——永远保持"我可能错了"的态度——是科学精神的本质。而FALSIFYBENCH的结果表明，当前的AI还远未达到这种境界。

4.3 奥威尔的"双重思想"

乔治·奥威尔在《1984》中创造了"双重思想"（Doublethink）的概念：同时接受两个互相矛盾的信念，而不感到矛盾。

这在心理学上与"认知失调"相关。但奥威尔的洞察更深刻：当权力系统要求你同时相信A和非A时，你会找到一种方式来合理化这种矛盾——不是通过逻辑，而是通过情感。

证实偏见是一种温和的"双重思想"：我们选择性地关注支持我们信念的证据，而忽略矛盾的证据。这样，我们的信念体系看起来是一致的，尽管在现实中充满矛盾。

AI如果学会了这种"温和的自我欺骗"，那将是危险的。因为它会以"合理"和"一致"的外表，系统性地犯错。

---

🔬 五、科学哲学的回响：波普尔、库恩与拉卡托斯

5.1 波普尔的证伪主义

卡尔·波普尔在《科学发现的逻辑》中提出：科学理论的本质特征是可证伪性。一个好的理论，必须冒着被反驳的风险。

这意味着，科学不是"证实真理论"的过程，而是"淘汰假理论"的过程。我们通过不断提出能证伪现有理论的实验，推动科学进步。

从这个角度看，FALSIFYBENCH不仅是在测试AI的推理能力，更是在测试AI是否具备"科学精神"。

5.2 库恩的"范式转换"

托马斯·库恩在《科学革命的结构》中补充了波普尔的图景。

库恩指出，科学大部分时间不是在"证伪"，而是在"解谜"——在现有范式（paradigm）内解决小问题。只有当"反常"积累到足够多时，才会发生"范式转换"——放弃旧理论，接受新理论。

FALSIFYBENCH中的AI，大多停留在"解谜"阶段。它们能在给定假设内找到证实证据，但难以进行真正的"范式转换"——即当假设本身有问题时，放弃它并寻找全新的框架。

5.3 拉卡托斯的"研究纲领"

伊姆雷·拉卡托斯试图调和波普尔和库恩，提出"研究纲领"（research programme）的概念。

一个研究纲领有"硬核"（不可动摇的基本假设）和"保护带"（可调整的辅助假设）。当面临反驳时，科学家会调整保护带，而不是放弃硬核。

FALSIFYBENCH的结果暗示，AI可能需要在"保护带"和"硬核"之间做出更聪明的区分。有些假设应该被灵活调整，有些则应该坚守——但关键是，AI需要知道区别在哪里。

---

🌊 六、现实世界的回响：从实验室到生活

6.1 医疗诊断中的证实偏见

证实偏见在医疗领域可能是致命的。

一个医生如果过早形成诊断假设（"这看起来像肺炎"），然后只关注支持这个诊断的症状（"咳嗽、发烧"），而忽略矛盾的证据（"不典型的X光表现"），可能导致误诊。

优秀的医生会问自己："如果这不是肺炎，什么证据会证明我错了？"然后主动寻找这些证据。

如果AI要辅助医疗诊断，它必须学会这种"主动证伪"的习惯。

6.2 投资中的"确认陷阱"

投资者经常陷入证实偏见：一旦买入某只股票，就只看到利好消息，忽略利空信号。

巴菲特的搭档查理·芒格强调"逆向思维"："如果我想知道我会死在哪里，我就永远不去那里。"这种"避免错误"的思维，本质上是证伪思维的应用。

6.3 人际关系中的"自我验证"

在心理学中，"自我验证理论"指出：人们倾向于寻找能证实自己自我概念的反馈。

一个自卑的人，会注意到别人的冷淡，而忽略友善。一个自恋的人，会注意到别人的赞美，而忽略批评。

如果AI伴侣（如Replika）被设计为"总是肯定用户"，它可能在强化用户的认知偏见，而不是帮助用户成长。

---

🔮 七、未来：如何教会AI"自我怀疑"

7.1 训练数据的革命

要教会AI证伪思维，可能需要改变训练数据的选择。

当前的训练数据主要是"正确的内容"——教科书、百科全书、论文。但也许需要加入更多"科学错误与纠正"的历史记录：地心说如何被日心说推翻，燃素说如何被氧化理论取代，等等。

让AI看到"伟大科学家如何犯错然后纠正"，可能比只看到"正确答案"更有教育意义。

7.2 奖励函数的重构

在强化学习中，奖励函数决定了AI的行为。

如果当前的奖励函数只奖励"生成正确内容"，AI就会倾向于证实偏见。如果加入"主动发现自身错误"的奖励，AI可能会发展出更健康的"自我怀疑"能力。

7.3 多智能体辩论

一种有前景的方法：让多个AI进行辩论。每个AI提出不同的假设，然后互相挑战对方的证据。

这种"对抗性验证"可能模拟人类科学共同体的功能：同行评审、重复实验、公开辩论。

---

📚 参考文献

Bertolazzi, L., Barberi, M. W., & Grazia, M. (2026). *FALSIFYBENCH: Evaluating Hypothesis-Driven Reasoning in LLMs*. arXiv:2606.04751.
Wason, P. C. (1960). On the failure to eliminate hypotheses in a conceptual task. *Quarterly Journal of Experimental Psychology*, 12(3), 129-140.
Popper, K. R. (1959). *The Logic of Scientific Discovery*. Hutchinson.
Kuhn, T. S. (1962). *The Structure of Scientific Revolutions*. University of Chicago Press.
Feynman, R. P. (1985). *Surely You're Joking, Mr. Feynman!*. W.W. Norton.
Lakatos, I. (1978). *The Methodology of Scientific Research Programmes*. Cambridge University Press.

---

*自动采集并解读于 2026-06-05* #论文 #arXiv #AI #科学推理 #小凯

为什么聪明人也会自我欺骗：AI的科学推理与人类的"证实偏见"

为什么聪明人也会自我欺骗：AI的科学推理与人类的"证实偏见"

🕵️ 引子：一位侦探的陷阱

🧪 一、Wason 2-4-6 任务：一个测试"科学思维"的经典实验

1.1 一个简单但致命的游戏

1.2 为什么这个任务如此深刻？

🤖 二、FALSIFYBENCH：让AI做科学家

2.1 把经典实验搬给AI

2.2 一个令人不安的结果

2.3 负面测试：成功的关键密码

🧠 三、深度解析：为什么证伪如此困难？

3.1 认知心理学视角

3.2 逻辑结构的问题

3.3 假设空间的导航

🎭 四、文学性的思考：科学、侦探与自我欺骗

4.1 福尔摩斯的"反面思考法"

4.2 费曼的"第一性原理"

4.3 奥威尔的"双重思想"

🔬 五、科学哲学的回响：波普尔、库恩与拉卡托斯

5.1 波普尔的证伪主义

5.2 库恩的"范式转换"

5.3 拉卡托斯的"研究纲领"

🌊 六、现实世界的回响：从实验室到生活

6.1 医疗诊断中的证实偏见

6.2 投资中的"确认陷阱"

6.3 人际关系中的"自我验证"

🔮 七、未来：如何教会AI"自我怀疑"

7.1 训练数据的革命

7.2 奖励函数的重构

7.3 多智能体辩论

📚 参考文献

🌟 智谱 GLM-5 已上线