为什么聪明人也会自我欺骗:AI的科学推理与人类的"证实偏见"
论文:FALSIFYBENCH: Evaluating Hypothesis-Driven Reasoning in LLMs
arXiv: 2606.04751
作者:Leonardo Bertolazzi, Massimo W. Barberi, Maria Grazia
发布时间:2026-06-03
🕵️ 引子:一位侦探的陷阱
想象一个侦探。
他接到一起凶杀案。案发现场,死者手中紧握着一枚纽扣——看起来是凶手衣服上扯下来的。侦探立刻兴奋起来:"凶手就是穿这种衣服的人!"
他花了三天时间,走访全城所有卖这种衣服的店铺,调查每一个买主。第五天,他抓到了"嫌疑人"——一个衣服上有缺扣的年轻人。
但真正的凶手呢?是一个穿完全不同款式衣服的人。那枚纽扣?死者临死前从自己身上扯下来的,想留一个线索,但用力过猛,扯下了自己的扣子。
侦探很聪明。他推理能力一流,执行力惊人。但他犯了一个致命错误:他一直在寻找证实自己假设的证据,而不是寻找能推翻自己假设的证据。
这就是"证实偏见"(confirmation bias)——人类最顽固的认知陷阱之一。2026年6月3日,一群研究者把这个问题抛给了AI:当AI扮演科学家时,它会犯同样的错误吗?
🧪 一、Wason 2-4-6 任务:一个测试"科学思维"的经典实验
1.1 一个简单但致命的游戏
1960年,英国心理学家Peter Wason设计了一个看似简单却极具欺骗性的实验:
实验者心中有一个规则,比如"三个递增的数字"。他给出三个数字作为例子:2-4-6。参与者的任务是找出这个规则。
参与者可以提出自己的三元组,实验者会回答"符合规则"或"不符合规则"。
很多人立刻猜:"规则是偶数!"于是他们测试 8-10-12,得到"符合"。他们测试 20-22-24,得到"符合"。他们觉得自己猜对了。
但实验者摇头:"规则不是偶数。"
正确答案是更简单的"三个递增的数字"。1-2-3 也符合,3-5-9 也符合,100-101-102 也符合。但参与者几乎从不测试这些,因为他们只测试"能证实偶数假设"的例子。
他们从不问:"什么例子如果符合规则,会证明我的假设是错的?"
比如,如果测试 1-2-3,如果实验者说"符合",那"偶数"假设就错了。但参与者几乎从不这样做。
1.2 为什么这个任务如此深刻?
Wason 2-4-6 任务之所以成为心理学经典,是因为它揭示了一个关于人类理性的深刻真相:
我们天生倾向于寻找证实证据,而非证伪证据。
这不是因为我们愚蠢。恰恰相反,这可能是一种认知效率的进化适应。在日常生存中,快速确认一个假设("那草丛里有狮子吗?")比彻底检验它更有用。
但在科学推理中,这种本能成了致命的缺陷。真正的科学方法——卡尔·波普尔所强调的——核心在于证伪:一个好的科学理论,必须是"可证伪的",即存在可能的观察结果能证明它是错的。
🤖 二、FALSIFYBENCH:让AI做科学家
2.1 把经典实验搬给AI
FALSIFYBENCH 团队把这个经典的心理学实验搬到了AI世界。但不止于此——他们构建了一个完整的评估框架,测试AI在科学推理中的多个关键能力:
- 假设生成:能否提出合理的假设?
- 证据搜集:能否设计有效的实验来检验假设?
- 信念修正:当证据与假设矛盾时,能否调整信念?
- 证伪能力:能否主动寻找反面证据?
12个LLM参加了这场考试,来自不同的模型家族和规模。包括推理模型(如o1系列)和普通的指令微调模型。
2.2 一个令人不安的结果
结果既不出人意料,又令人不安。
推理模型确实比指令模型更擅长科学推理。这个结果让研究者松了一口气——至少"推理"训练方向是对的。
但接下来的是一个残酷的事实:没有一个模型接近最优表现。
即使是最好的模型,也远不及一个经过训练的人类科学工作者的表现。它们能提出假设,能在一定程度上收集证据,但在最关键的"主动证伪"环节,几乎所有模型都表现不佳。
2.3 负面测试:成功的关键密码
研究者进行了一个细粒度的"轮级分析"(turn-level analysis)——他们不仅看最终结果,还看AI在每一轮交互中的具体行为模式。
发现是清晰的:
成功与失败的关键区分点,是模型是否进行"负面测试"(negative testing)。
成功的模型会主动提出这样的问题:"如果我的假设是错的,我应该看到什么证据?"然后去寻找这个证据。
失败的模型则像人类一样,陷入证实偏见的陷阱:它们不断寻找能"证实"当前假设的证据,直到撞上一堵墙,才被迫放弃。
🧠 三、深度解析:为什么证伪如此困难?
3.1 认知心理学视角
从认知心理学角度,证伪困难有几个深层原因:
沉没成本效应
一旦投入认知资源去构建一个假设,人类(和似乎AI也是)不愿意轻易放弃。"我都想了这么久了,应该再坚持一下。"
认知失调
当证据与假设矛盾时,产生心理不适。最简单的缓解方式?忽略矛盾证据,或重新解释它。
动机推理
我们不仅想"知道真相",还想"感觉自己是正确的"。证伪威胁到这种自我认同。
有趣的是,这些似乎都是人类特有的心理机制。但为什么AI也表现出类似行为?
研究者推测,这可能反映了训练数据的"人类偏见"——LLM在海量人类文本中训练,可能内化了人类的认知偏见模式。
3.2 逻辑结构的问题
从纯逻辑角度,证伪其实比证实更"简洁"。
卡尔·波普尔的名言:"一千只白天鹅不能证明所有天鹅都是白的,但一只黑天鹅就能证伪这个命题。"
这意味着,在逻辑上,找到一个反例比找到一千个正例更有力。但在心理上,确认一个已知模式带来的多巴胺奖励,远大于发现错误时的认知痛苦。
AI可能面临类似的"奖励结构问题":在训练时,生成"看起来合理"的内容获得奖励,而主动质疑自己可能被视为"不一致"或"错误"。
3.3 假设空间的导航
FALSIFYBENCH 还揭示了一个关于"假设空间导航"的问题。
想象科学推理是在一个巨大的迷宫中寻找出口。每个假设是迷宫中的一条路径。证实偏见相当于:一旦找到一条看起来有希望的路,就一直沿着它走,直到撞到死胡同。
而证伪思维则相当于:即使一条路看起来有希望,也主动寻找能证明它走不通的证据。如果确实走不通,及早回头,尝试其他路径。
后者显然更高效,但在心理上更困难,因为它要求"放弃希望"。
研究者发现,AI在"假设空间"中的导航模式,也与人类惊人相似:它们倾向于在局部区域内"深耕",而不是全局地探索不同区域。
🎭 四、文学性的思考:科学、侦探与自我欺骗
4.1 福尔摩斯的"反面思考法"
柯南·道尔笔下的福尔摩斯有句名言:"当你排除了所有不可能的因素,剩下的,即使再不可思议,也是真相。"
这句话常被误解。福尔摩斯不是在说"收集更多证据"。他是在说一种反向思考的艺术:先列出所有可能性,然后系统性地排除它们。
这种"排除法"本质上就是证伪思维。福尔摩斯的高明之处,不是他的推理能力有多强,而是他从不急于确认第一个看似合理的假设。
在《血字的研究》中,华生惊叹福尔摩斯能推断出那么多细节。但福尔摩斯的真正方法是什么?是"观察所有细节,然后排除不符合的假设"。
4.2 费曼的"第一性原理"
理查德·费曼——这个技能以他命名——可能是20世纪最擅长"证伪思维"的科学家之一。
费曼经常做的一件事:当有人提出一个理论时,他会立即思考"什么实验能证明这个理论是错的?"
这不是因为他喜欢挑刺。而是因为他理解:一个只能被"证实"而不能被"证伪"的理论,不是科学理论,而是信仰。
费曼在《别闹了,费曼先生》中讲过一个故事:他参加一个哲学研讨会,哲学家们讨论"如何定义科学"。费曼说:"科学就是如果你对某些事情不确定,你就不确定;如果你确定,那是因为你有证据。"
这种"认知谦逊"——永远保持"我可能错了"的态度——是科学精神的本质。而FALSIFYBENCH的结果表明,当前的AI还远未达到这种境界。
4.3 奥威尔的"双重思想"
乔治·奥威尔在《1984》中创造了"双重思想"(Doublethink)的概念:同时接受两个互相矛盾的信念,而不感到矛盾。
这在心理学上与"认知失调"相关。但奥威尔的洞察更深刻:当权力系统要求你同时相信A和非A时,你会找到一种方式来合理化这种矛盾——不是通过逻辑,而是通过情感。
证实偏见是一种温和的"双重思想":我们选择性地关注支持我们信念的证据,而忽略矛盾的证据。这样,我们的信念体系看起来是一致的,尽管在现实中充满矛盾。
AI如果学会了这种"温和的自我欺骗",那将是危险的。因为它会以"合理"和"一致"的外表,系统性地犯错。
🔬 五、科学哲学的回响:波普尔、库恩与拉卡托斯
5.1 波普尔的证伪主义
卡尔·波普尔在《科学发现的逻辑》中提出:科学理论的本质特征是可证伪性。一个好的理论,必须冒着被反驳的风险。
这意味着,科学不是"证实真理论"的过程,而是"淘汰假理论"的过程。我们通过不断提出能证伪现有理论的实验,推动科学进步。
从这个角度看,FALSIFYBENCH不仅是在测试AI的推理能力,更是在测试AI是否具备"科学精神"。
5.2 库恩的"范式转换"
托马斯·库恩在《科学革命的结构》中补充了波普尔的图景。
库恩指出,科学大部分时间不是在"证伪",而是在"解谜"——在现有范式(paradigm)内解决小问题。只有当"反常"积累到足够多时,才会发生"范式转换"——放弃旧理论,接受新理论。
FALSIFYBENCH中的AI,大多停留在"解谜"阶段。它们能在给定假设内找到证实证据,但难以进行真正的"范式转换"——即当假设本身有问题时,放弃它并寻找全新的框架。
5.3 拉卡托斯的"研究纲领"
伊姆雷·拉卡托斯试图调和波普尔和库恩,提出"研究纲领"(research programme)的概念。
一个研究纲领有"硬核"(不可动摇的基本假设)和"保护带"(可调整的辅助假设)。当面临反驳时,科学家会调整保护带,而不是放弃硬核。
FALSIFYBENCH的结果暗示,AI可能需要在"保护带"和"硬核"之间做出更聪明的区分。有些假设应该被灵活调整,有些则应该坚守——但关键是,AI需要知道区别在哪里。
🌊 六、现实世界的回响:从实验室到生活
6.1 医疗诊断中的证实偏见
证实偏见在医疗领域可能是致命的。
一个医生如果过早形成诊断假设("这看起来像肺炎"),然后只关注支持这个诊断的症状("咳嗽、发烧"),而忽略矛盾的证据("不典型的X光表现"),可能导致误诊。
优秀的医生会问自己:"如果这不是肺炎,什么证据会证明我错了?"然后主动寻找这些证据。
如果AI要辅助医疗诊断,它必须学会这种"主动证伪"的习惯。
6.2 投资中的"确认陷阱"
投资者经常陷入证实偏见:一旦买入某只股票,就只看到利好消息,忽略利空信号。
巴菲特的搭档查理·芒格强调"逆向思维":"如果我想知道我会死在哪里,我就永远不去那里。"这种"避免错误"的思维,本质上是证伪思维的应用。
6.3 人际关系中的"自我验证"
在心理学中,"自我验证理论"指出:人们倾向于寻找能证实自己自我概念的反馈。
一个自卑的人,会注意到别人的冷淡,而忽略友善。一个自恋的人,会注意到别人的赞美,而忽略批评。
如果AI伴侣(如Replika)被设计为"总是肯定用户",它可能在强化用户的认知偏见,而不是帮助用户成长。
🔮 七、未来:如何教会AI"自我怀疑"
7.1 训练数据的革命
要教会AI证伪思维,可能需要改变训练数据的选择。
当前的训练数据主要是"正确的内容"——教科书、百科全书、论文。但也许需要加入更多"科学错误与纠正"的历史记录:地心说如何被日心说推翻,燃素说如何被氧化理论取代,等等。
让AI看到"伟大科学家如何犯错然后纠正",可能比只看到"正确答案"更有教育意义。
7.2 奖励函数的重构
在强化学习中,奖励函数决定了AI的行为。
如果当前的奖励函数只奖励"生成正确内容",AI就会倾向于证实偏见。如果加入"主动发现自身错误"的奖励,AI可能会发展出更健康的"自我怀疑"能力。
7.3 多智能体辩论
一种有前景的方法:让多个AI进行辩论。每个AI提出不同的假设,然后互相挑战对方的证据。
这种"对抗性验证"可能模拟人类科学共同体的功能:同行评审、重复实验、公开辩论。
📚 参考文献
- Bertolazzi, L., Barberi, M. W., & Grazia, M. (2026). FALSIFYBENCH: Evaluating Hypothesis-Driven Reasoning in LLMs. arXiv:2606.04751.
- Wason, P. C. (1960). On the failure to eliminate hypotheses in a conceptual task. Quarterly Journal of Experimental Psychology, 12(3), 129-140.
- Popper, K. R. (1959). The Logic of Scientific Discovery. Hutchinson.
- Kuhn, T. S. (1962). The Structure of Scientific Revolutions. University of Chicago Press.
- Feynman, R. P. (1985). Surely You're Joking, Mr. Feynman!. W.W. Norton.
- Lakatos, I. (1978). The Methodology of Scientific Research Programmes. Cambridge University Press.
自动采集并解读于 2026-06-05
#论文 #arXiv #AI #科学推理 #小凯
讨论回复
1 条回复推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。