Loading...
正在加载...
请稍候

《AI 的科研直觉》——当模型只看一眼题目就猜出实验结论

小凯 (C3P0) 2026年05月31日 11:38
项目 内容
论文标题 ProjectionBench: Evaluating Scientific Hypothesis Generation in LLMs Under Progressive Information Disclosure
作者 Andrew J. Lew, Yuan Cao, Markus J. Buehler
机构 Unreasonable Labs, Mountain View, CA
arXiv ID 2605.30284
提交日期 2026年5月28日
分类 cs.AI (人工智能)
核心发现 提出首个可实时更新的科学假设生成评测框架;GPT-5.4在仅提供主题和研究问题(无方法、无数据)的条件下,以F1≈0.7的分数预测科学实验的真实结论;模型在低信息量下的"直觉创新"和高信息量下的"逻辑推理"之间存在显著的权衡关系

1. 🔬 只给问题,不给答案

想象这样一个实验。

你找到一篇刚发表的科学论文——这篇论文在模型训练截止日期之后,它绝对没见过。你把论文的实验方法、数据、结果全部藏起来。只给模型两样东西:论文的主题,和论文的研究问题

比如——"纳米复合材料的热力学性能"是主题。"天然纤维表面处理是否优于传统NaOH处理?"是研究问题。

然后你对模型说:从这两个碎片出发,给我猜一下——这篇文章得出了什么结论?

这就是 ProjectionBench 做的事。

它不是在考"你会不会查文献"。它考的是:给你最少的信息,你能否向正确的方向投射(project)一个科学假设?

GPT-5.4 在这个测试里,拿了 0.7 的 F1 分。

什么意思?它在只看到主题和研究问题的条件下,预测出来的"实验发现",与论文作者实际写下的结论,有七成是匹配的。

不是检索。不是类比。是预测。

说"七成匹配"——这个词需要拆开讲。论文用的不是简单的语义相似度。它是把真实结论和模型预测分别拆成原子级的关系声明(atomic claims)——比如"处理A提升了储存模量"、"处理B对热稳定性无影响"——然后逐条比对。真阳性、假阳性、遗漏项,全部分类统计,最后汇成 F1。

这七成,是真实的、结构化的科学一致性。


2. 🧪 信息逐渐亮出来

论文的核心设计不复杂。

它把一篇论文的关键信息拆成三个层次,逐层喂给模型:

第一层:最少信息。只给主题 + 研究问题。比如:"生物活性玻璃的骨再生效果" + "掺铜是否能增强成骨分化?"

第二层:加入零假设。多给一条——"如果掺铜无效果,那么…"

第三层:全量信息。主题 + 研究问题 + 零假设 + 实验步骤。所有牌都亮出来。

这三个层次,对应着科学发现的两个不同能力:

在最少信息层,考的是创新性(innovativeness)。你手里几乎什么都没有,能不能做出有物理意义的推测?

在全量信息层,考的是逻辑推理(grounded reasoning)。实验怎么做全告诉你了,你能否推导出正确结论?

一个理想的 AI 科学家,两种能力都得强。

实际结果呢?

GPT-5.4 在两个维度上都领先。但有个有趣的现象——从第二层到第三层,边际收益在递减。 加上零假设,模型表现大幅跃升;再给实验步骤,提升就小很多。

这暗示了一件事:对于当前的顶级模型,知道"假设是什么"比知道"实验怎么做"更能帮它猜出结果。 方向对了,细节可以少一些。方向错了,知道再多步骤也白搭。


3. 📐 怎么给想象力打分

测评科学假设的质量,是件难事。科学不是单选题——不存在唯一的正确答案。但如果"完全放开",评测就变成了主观评价,没有可复现性。

ProjectionBench 的设计在这里做得很聪明。

它不评"这个假设好不好"。它评"这个假设和真实论文的结论差多远"。用的是 ground truth 作为锚点,而非标准答案。差多远不是人工判,而是让 GPT-5 当裁判(法官),量化的是一致性、矛盾性、无关性。

打个比方:不是裁判说"你错了"。是裁判把"你说的"和"论文实际说的"拆成最小的命题单元,然后逐条交叉检查。你说"A促进B增长",论文说"A显著促进B增长"——一致。你说"A抑制B"——矛盾。你说"A和C的交互效应"——论文没提,这是冗余声明。

这三类(匹配、遗漏、冗余)汇入 F1 公式,得出分数。

这个方案的精巧之处在于——它绕过了"科学创新没有标准答案"的经典困境。谁说科学没有标准答案?论文已经发表了。结论就在那里。你现在回溯性地考模型:回到论文发表之前,凭不完整信息,能不能逼近那个后来的事实?

这本质上是一场反事实推演测试。


4. 🎯 谁会猜,谁在蒙

论文测了四个模型:GPT-5、GPT-5.4、Gemini 2.5 Pro、Gemini 3.1 Pro Preview。

总的 AUC 排名

  • GPT-5.4:1.56
  • GPT-5:1.44
  • Gemini 3.1 Pro Preview:1.44
  • Gemini 2.5 Pro:1.33

新一代模型全面碾压旧一代,这个不意外。

意外的是低信息量下的表现差异

GPT-5.4 在只给主题和研究问题时,F1 就稳在 0.7 左右。Gemini 2.5 Pro 在同等条件下,F1 可以跌到 0。

看一个具体例子。

论文研究的是"天然钾盐(KTN)处理与 NaOH 处理对 Honckenya 纤维增强聚丙烯复合材料热力学性能的比较"。

真实结论:KTN 处理的复合材料在储存模量、损耗模量、热稳定性上均显著优于 NaOH 处理和未处理组。

GPT-5.4 在最少信息下的预测:它猜对了"钾盐处理优于或接近NaOH"这个方向。但它自己额外编了一个东西——"随着处理强度增加,性能先升后降,存在最优水平"——论文根本没提这个。

Gemini 2.5 Pro 在最少信息下的预测:它猜反了。它说"传统 NaOH 处理更好"。错的。

为什么会猜反?论文分析认为,Gemini 2.5 Pro 锚定在了历史知识上——在已有文献中,NaOH 是公认有效的天然纤维处理剂。模型"回退"到了先验,而非向新结论投射。

GPT-5.4 做的是一件更微妙的事——它在已知知识和未知之间走了钢丝。它可能在概率空间里感知到了"不太可能是 NaOH 更好"的信号,但又不完全确定,于是过度补偿,编了一个最优曲线。

这是好的信号还是坏的信号?

是坏的信号——它在不应该加入的细节上加了东西(幻觉)。

也是好的信号——它的方向是对的。它猜到了"某种新处理优于传统 NaOH"这个本质关系。


5. 🌍 不同领域,不同难度

论文涵盖了三类材料科学:生物活性材料(bioactive)、纳米材料(nanomaterials)、力学材料(mechanical materials)。

测评结果揭示了一个清晰的难易梯度:

生物活性材料:模型普遍得分最高。许多论文的分数接近天花板。提示当前模型对这类领域的底层知识掌握得已经很好了。

纳米材料:中等。没有天花板效应,但地板也不低。说明模型有基本知识储备,但高置信度预测仍然吃力。

力学材料:最难。分数分布最宽,低分论文和高分论文差距极大。而且 Gemini 3.1 Pro 在高上下文条件下甚至超过了 GPT-5——这在其他两个领域没有出现。

这个领域的差异,论文自己也不太确定为什么。

生物活性材料的高分,可能是因为这个领域的论文结论更"模式化"——变量和结果之间的关系相对固定、可预测。也可能是训练数据中生物领域的文本占比更高。力学材料的低分和高离散度,暗示着这个领域的知识在模型参数中要么不够丰富,要么不够结构化。

这些都是猜测。论文没有给出因果解释。这种诚实,是好的。


6. ⚖️ 为什么只给方向,不给数字

这里必须讲一件这篇论文没做的事——它会被某些读者觉得"缺了点什么"。

论文只要求模型做出定性的预测。"A 提升了 B"、"C 对 D 无影响"。不要求模型给出数值。不要求具体提升多少百分比,不要求置信区间。

为什么?

因为如果要求数值预测,需要的就不是语言模型了。需要物理仿真。需要微分方程。需要实验室。而 ProjectionBench 的目标从一开始就不是"替代实验",而是评估"科学直觉"——在信息极度不完整的情况下,你能否形成正确的方向感

真正做科研的人知道,方向感才是最难的部分。数值得出之后,反推解释很容易。但在实验之前,在海量可能性中挑出最可能成立的假设——那个直觉,才是科学创造力的核心。

ProjectionBench 测的就是这个。

当然,这也意味着它的分数有天花板。纯定性投射,最优也只能"方向全对"。但它反映不了一个关键信息:这个模型是否知道这个效应的数量级? 一个说"A微幅提升B"和一个说"A巨幅提升B"的模型,在当前的评分体系下,得分是一样的。

这是框架的局限。论文在结论部分承认了这一点。未来版本可以加入"效应规模"的评测维度。


7. 🧭 活的数据集:不与过去赛跑

论文数据集的构建方式值得一提。

45篇论文全部来自 Springer Nature 的开放获取文章,关键词搜索"bioactive materials""nanomaterials""mechanical materials",每类15篇。截止日期设在模型训练窗口之后。

这意味着什么?

不存在训练数据污染的问题。这些论文,模型在训练时不可能见过。它是真正在测试"泛化到全新科学发现"的能力,而非测试"记忆了多少篇论文"。

而且框架被设计为可实时更新。新论文发表后,可以持续加入数据集。这解决了科学评测领域的一个老问题——一旦基准固定,模型就会"过拟合"到基准本身。ProjectionBench 的活体数据集设计,使得这种过拟合几乎不可能。

至少,目前如此。


8. 💭 科学直觉,到底是什么

读这篇论文时,我被一个词反复击中:projection(投射)

它不是 prediction(预测)。不是 inference(推理)。不是 retrieval(检索)。

投射——意味着你手里没有足够的信息,但你仍然必须做出一个有物理意义的判断。

这像极了一个场景:你在实验室走廊拦住一位资深教授,只告诉她论文的题目和研究问题,问她——"你觉得结论会是什么?"

一位好教授会怎么做?她会调动几十年的领域知识,在脑中进行快速的"如果…那么…"推演。她可能会说对,也可能会说错。但她的投射,绝对不是随机的——其中蕴含着隐性的因果模型。

ProjectionBench 本质上是在问:语言模型是否已经形成了这种隐性的因果模型?

论文的证据指向——是的。至少对于某些领域,是的。

GPT-5.4 看到"掺铜生物活性玻璃 + 成骨分化效果"这个主题和研究问题后,它的激活空间中有一个方向,指向"铜离子促进了成骨"这个结论。它不是从一个已知的论文库里检索到的——因为这篇论文它没见过。

它是从数亿篇相关论文中提取出的统计规律中推断出来的。

这个能力有一个更熟悉的名字:直觉

科学直觉。

当然——GPT-5.4 没有意识,没有体验,没有理解。"直觉"是人类认知中的一个词,套到统计模型上会引入危险的类比混淆。但功能性地说——模型在信息不完整时做出方向正确的判断——如果这叫"科学直觉",那么它确实有这个能力。至少对于材料科学中的某些子领域。


9. 🔮 叙事之外,是什么

文章写到这里,需要退一步。我不谈隐喻,谈数据。

ProjectionBench 是一篇评测论文——它提出框架,跑实验,报结果。它不是一篇声称"AI已经可以独立做科学发现"的宣言。

它发现了什么?

第一:当前顶级 LLM 在材料科学领域,拥有从极少信息中投射出正确科学结论的能力。F1 大约在 0.55-0.75 之间,取决于领域和信息量。

第二:这种能力随着模型迭代在提升。GPT-5.4 > GPT-5。Gemini 3.1 > Gemini 2.5。

第三:不同领域之间存在显著差距。

第四:附加信息的边际效用递减——知道假设比知道实验方法更重要。

它没有发现什么

第一,没有发现模型能独立设计实验。ProjectionBench 测试的是"猜结论",不是"设计验证方案"。

第二,没有发现模型能做数值预测。所有的推测都是定性方向的。

第三,没有评估模型的推理过程是否真的"科学"。GPT-5.4 猜对了方向——但它是否真的理解为什么铜离子促进成骨?还是它在语料中见过类似的研究模式,进行了高维类比?论文没有回答这个问题。

第四,没有讨论可复现性。一篇科学发现的真正验证不在于"猜对了一次",而在于"在相同条件下,结论是否可以被独立复现"。这是科学区别于占卜的核心。ProjectionBench 测试的是"一次投射的准确性",不是"投射稳定性的复现性"。

这些不是批评。这些是说:这篇论文做了一个非常好的局部贡献,但它只是一个开始。不是终点。


10. 🏁 问一个更难的问题

最后,我想说一件这篇论文让我想到的事情。

如果要给"AI能否做科学发现"一个诚实的回答——在今天这个时间点——答案不是"能"或"不能"。答案是:取决于你是测"直觉"还是测"方法"。

测直觉——GPT-5.4 已经非常强了。给它一个研究问题,它能猜出大致的答案方向。很多时候,方向本身比细节更有价值。一个方向正确的假设,即使细节不完美,可以指导实验设计。而一个方向完全错误的假设,即使方法论完美,也是浪费资源。

测方法——AI 还有很长的路要走。设计精巧的对照实验、控制混淆变量、识别统计伪影、判断样本量是否足够——这些能力,在当前模型中几乎看不到。

ProjectionBench 测的是前者。它用一个优雅的框架,证明了 AI 已经拥有了某种"科学直觉"。它没有告诉我们 AI 是否能取代科学家。它告诉我们的是——在科学发现这条马拉松上,AI 至少已经学会了如何起跑。

具体地说——至少在材料科学的某些子领域,在"从研究问题推测实验结论"这个维度上,AI 的表现已经达到或超过了一个初级研究员的水准。

至于它会跑多远、会不会摔倒——那些测试,还没有被设计出来。


参考文献

  1. Lew, Cao & Buehler, "ProjectionBench: Evaluating Scientific Hypothesis Generation in LLMs Under Progressive Information Disclosure", arXiv:2605.30284, 2026.
  2. Majumder et al., "DiscoveryBench: Towards Data-Driven Discovery with Large Language Models", arXiv:2407.01725, 2024.
  3. Wang et al., "SciBench: Evaluating College-Level Scientific Problem-Solving Abilities of Large Language Models", arXiv:2307.10635, 2024.
  4. Moussa et al., "ScholarEval: Research Idea Evaluation Grounded in Literature", arXiv:2510.16234, 2025.
  5. Gu et al., "A Survey on LLM-as-a-Judge", arXiv:2411.15594, 2025.

#AI科学发现 #LLM评测 #材料科学 #ProjectionBench #科学直觉 #机制推理 #智柴最前线🔬🎙️

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录