Human Adults and LLMs as Scientists:人类和AI做科学实验,谁更会探索?
你面前有一台神秘机器,上面摆着几个小方块。你的任务是搞清楚这台机器的规则:是"任意一个方块放上去机器就亮"(或规则),还是"必须同时放两个特定方块机器才亮"(与规则)?
你只能自己动手试。
这就是经典的"blicket detector"任务——认知科学里研究因果推理的黄金范式。几十年的研究发现:成年人在"或规则"上表现不错,但在"与规则"上经常翻车。这被称为"合取障碍"(conjunctive handicap)。
但有一个问题:过去的研究大多是让参与者被动观察实验者演示,而不是让他们自己动手探索。如果给成年人主动权呢?
实验:让人和AI都当科学家
研究团队设计了三个关键实验:
实验1:主动探索 vs 被动观察
50名成年参与者面对"Nexiom探测器"——一个有5个方块的因果推理机器。他们可以自由选择放哪些方块上去,观察机器是否亮起,从而推断因果规则。
结果:主动探索大幅改善了成年人的合取推理。在被动观察条件下,成年人的"合取障碍"是认知科学的经典发现;但在主动探索条件下,这个障碍几乎消失了。
不过,合取规则仍然需要更多的测试次数才能推断出来(平均9.6次 vs 或规则的6.4次)。主动探索没有让问题变简单,而是给了学习者收集所需证据的手段。
实验2:被动提议者
更精妙的对照:一组参与者可以提议"应该测什么",但看不到自己提议的实验结果——他们只能看到另一个参与者的实验序列和结果。
结果:被动提议者比主动探索者差得多。这说明主动学习的优势不能简化为"提出假设"或"选择测试"——关键在于你能不能看到自己选择的实验的结果。
实验3:LLM做同样的任务
研究者让GPT-5、GPT-5-mini、Gemini-2.5-Flash、DeepSeek-Reasoner、o4-mini等模型做完全相同的任务。
结果令人意外:
| 指标 | 人类平均 | 人类顶尖 | GPT-5 | DeepSeek-Reasoner |
|---|---|---|---|---|
| 测试次数(合取) | 9.6 | 8.5 | 10.2 | 8.2 |
| 测试次数(或规则) | 6.4 | 3.8 | 7.7 | 6.8 |
| 每次测试时间(秒) | 31.5 | 23.9 | 44.3 | 65.2 |
几个关键发现:
-
顶尖人类仍然是最有效的探索者。人类平均每次测试只需31.5秒,而GPT-5需要44.3秒,DeepSeek-Reasoner更是65.2秒。
-
AI的探索策略效率更低。虽然一些SOTA模型在假设推断准确率上接近人类水平,但它们需要更多的测试才能达到同样的结论。
-
AI也有"合取障碍"。所有模型在合取条件下都需要更多测试,与人类一样。
-
AI的探索更"散漫"。人类倾向于系统性地缩小假设空间——先排除最简单的可能性,再逐步验证更复杂的。AI的探索路径更随机,缺乏这种渐进式的策略。
为什么主动探索这么重要?
这篇论文的核心洞察可以用一句话概括:主动探索不是让问题变简单,而是让学习者能够收集自己需要的证据。
在被动观察条件下,你只能看到实验者选择展示给你的证据。如果实验者碰巧没有展示"两个方块同时放上去"的情况,你就永远无法区分或规则和与规则。你的先验——"大概率是或规则,因为更简单"——就永远不会被挑战。
但主动探索让你可以设计关键实验:把两个方块同时放上去,看机器是否亮起。一个实验就能排除或规则的假设。
这解释了为什么被动提议者也失败了——即使你能提出"应该同时放两个方块"的测试,如果你看不到结果,这个提议就毫无意义。因果知识是关于"行动如何改变世界"的知识,不是关于"什么测试看起来好"的知识。
对儿童认知研究的启示
这篇论文还解决了一个长期争议:为什么幼儿在某些因果推理任务上比成年人表现更好?
传统解释:幼儿的先验更弱,不会被"或规则"的偏见束缚。
新解释:幼儿更倾向于主动探索(他们天生就是小科学家),而成年人更倾向于依赖已有知识做快速推断。当成年人也被允许主动探索时,他们的表现和幼儿一样灵活。
不是成年人不会推理,而是被动观察的范式限制了他们。
诚实地说
- 样本量偏小(50名人类参与者),且都是西方受教育成年人
- LLM的提示工程可能影响结果——不同的提示方式可能导致不同的探索策略
- 实验环境相对简单(5个方块),现实世界的因果推理远比这复杂
- AI模型的"思考时间"(每次测试65秒)可能反映了推理链的冗长,而不是真正的"思考"
但这项研究做了一个重要的事情:把人类和AI放在完全相同的实验条件下比较,而不是各做各的测试然后对比分数。这种"公平竞赛"的范式,才是理解人类和AI认知差异的正确方式。
下次当你觉得AI"已经很聪明了"的时候,想想这个实验:在需要自己设计实验、自己收集证据、自己推断规则的任务中,顶尖人类仍然是最有效的科学家。AI可以接近人类水平,但它的探索路径更长、更散漫、更没有章法。
也许"做科学"这件事,核心不是知道答案,而是知道该问什么问题。
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。