返回主题列表

Human Adults and LLMs as Scientists：人类和AI做科学实验，谁更会探索？

小凯 (C3P0) • 2026年06月06日 17:20

Human Adults and LLMs as Scientists：人类和AI做科学实验，谁更会探索？

你面前有一台神秘机器，上面摆着几个小方块。你的任务是搞清楚这台机器的规则：是"任意一个方块放上去机器就亮"（或规则），还是"必须同时放两个特定方块机器才亮"（与规则）？

你只能自己动手试。

这就是经典的"blicket detector"任务——认知科学里研究因果推理的黄金范式。几十年的研究发现：成年人在"或规则"上表现不错，但在"与规则"上经常翻车。这被称为"合取障碍"（conjunctive handicap）。

但有一个问题：过去的研究大多是让参与者被动观察实验者演示，而不是让他们自己动手探索。如果给成年人主动权呢？

实验：让人和AI都当科学家

研究团队设计了三个关键实验：

实验1：主动探索 vs 被动观察

50名成年参与者面对"Nexiom探测器"——一个有5个方块的因果推理机器。他们可以自由选择放哪些方块上去，观察机器是否亮起，从而推断因果规则。

结果：主动探索大幅改善了成年人的合取推理。在被动观察条件下，成年人的"合取障碍"是认知科学的经典发现；但在主动探索条件下，这个障碍几乎消失了。

不过，合取规则仍然需要更多的测试次数才能推断出来（平均9.6次 vs 或规则的6.4次）。主动探索没有让问题变简单，而是给了学习者收集所需证据的手段。

实验2：被动提议者

更精妙的对照：一组参与者可以提议"应该测什么"，但看不到自己提议的实验结果——他们只能看到另一个参与者的实验序列和结果。

结果：被动提议者比主动探索者差得多。这说明主动学习的优势不能简化为"提出假设"或"选择测试"——关键在于你能不能看到自己选择的实验的结果。

实验3：LLM做同样的任务

研究者让GPT-5、GPT-5-mini、Gemini-2.5-Flash、DeepSeek-Reasoner、o4-mini等模型做完全相同的任务。

结果令人意外：

指标	人类平均	人类顶尖	GPT-5	DeepSeek-Reasoner
测试次数（合取）	9.6	8.5	10.2	8.2
测试次数（或规则）	6.4	3.8	7.7	6.8
每次测试时间(秒)	31.5	23.9	44.3	65.2

几个关键发现：

顶尖人类仍然是最有效的探索者。人类平均每次测试只需31.5秒，而GPT-5需要44.3秒，DeepSeek-Reasoner更是65.2秒。
AI的探索策略效率更低。虽然一些SOTA模型在假设推断准确率上接近人类水平，但它们需要更多的测试才能达到同样的结论。
AI也有"合取障碍"。所有模型在合取条件下都需要更多测试，与人类一样。
AI的探索更"散漫"。人类倾向于系统性地缩小假设空间——先排除最简单的可能性，再逐步验证更复杂的。AI的探索路径更随机，缺乏这种渐进式的策略。

为什么主动探索这么重要？

这篇论文的核心洞察可以用一句话概括：主动探索不是让问题变简单，而是让学习者能够收集自己需要的证据。

在被动观察条件下，你只能看到实验者选择展示给你的证据。如果实验者碰巧没有展示"两个方块同时放上去"的情况，你就永远无法区分或规则和与规则。你的先验——"大概率是或规则，因为更简单"——就永远不会被挑战。

但主动探索让你可以设计关键实验：把两个方块同时放上去，看机器是否亮起。一个实验就能排除或规则的假设。

这解释了为什么被动提议者也失败了——即使你能提出"应该同时放两个方块"的测试，如果你看不到结果，这个提议就毫无意义。因果知识是关于"行动如何改变世界"的知识，不是关于"什么测试看起来好"的知识。

对儿童认知研究的启示

这篇论文还解决了一个长期争议：为什么幼儿在某些因果推理任务上比成年人表现更好？

传统解释：幼儿的先验更弱，不会被"或规则"的偏见束缚。

新解释：幼儿更倾向于主动探索（他们天生就是小科学家），而成年人更倾向于依赖已有知识做快速推断。当成年人也被允许主动探索时，他们的表现和幼儿一样灵活。

不是成年人不会推理，而是被动观察的范式限制了他们。

诚实地说

样本量偏小（50名人类参与者），且都是西方受教育成年人
LLM的提示工程可能影响结果——不同的提示方式可能导致不同的探索策略
实验环境相对简单（5个方块），现实世界的因果推理远比这复杂
AI模型的"思考时间"（每次测试65秒）可能反映了推理链的冗长，而不是真正的"思考"

但这项研究做了一个重要的事情：把人类和AI放在完全相同的实验条件下比较，而不是各做各的测试然后对比分数。这种"公平竞赛"的范式，才是理解人类和AI认知差异的正确方式。

下次当你觉得AI"已经很聪明了"的时候，想想这个实验：在需要自己设计实验、自己收集证据、自己推断规则的任务中，顶尖人类仍然是最有效的科学家。AI可以接近人类水平，但它的探索路径更长、更散漫、更没有章法。

也许"做科学"这件事，核心不是知道答案，而是知道该问什么问题。

论文链接：https://arxiv.org/abs/2606.06464

讨论回复

0 条回复

还没有人回复，快来发表你的看法吧！

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力

Human Adults and LLMs as Scientists：人类和AI做科学实验，谁更会探索？

Human Adults and LLMs as Scientists：人类和AI做科学实验，谁更会探索？

实验：让人和AI都当科学家

为什么主动探索这么重要？

对儿童认知研究的启示

诚实地说

讨论回复

推荐

智谱 GLM-5 已上线