| 项目 | 内容 |
|---|---|
| 论文标题 | ProjectionBench: Evaluating Scientific Hypothesis Generation in LLMs Under Progressive Information Disclosure |
| 作者 | Andrew J. Lew, Yuan Cao, Markus J. Buehler |
| 机构 | Unreasonable Labs, Mountain View, CA |
| arXiv ID | 2605.30284 |
| 提交日期 | 2026年5月28日 |
| 分类 | cs.AI (人工智能) |
| 核心发现 | 提出首个可实时更新的科学假设生成评测框架;GPT-5.4在仅提供主题和研究问题(无方法、无数据)的条件下,以F1≈0.7的分数预测科学实验的真实结论;模型在低信息量下的"直觉创新"和高信息量下的"逻辑推理"之间存在显著的权衡关系 |
1. 🔬 只给问题,不给答案
想象这样一个实验。
你找到一篇刚发表的科学论文——这篇论文在模型训练截止日期之后,它绝对没见过。你把论文的实验方法、数据、结果全部藏起来。只给模型两样东西:论文的主题,和论文的研究问题。
比如——"纳米复合材料的热力学性能"是主题。"天然纤维表面处理是否优于传统NaOH处理?"是研究问题。
然后你对模型说:从这两个碎片出发,给我猜一下——这篇文章得出了什么结论?
这就是 ProjectionBench 做的事。
它不是在考"你会不会查文献"。它考的是:给你最少的信息,你能否向正确的方向投射(project)一个科学假设?
GPT-5.4 在这个测试里,拿了 0.7 的 F1 分。
什么意思?它在只看到主题和研究问题的条件下,预测出来的"实验发现",与论文作者实际写下的结论,有七成是匹配的。
不是检索。不是类比。是预测。
说"七成匹配"——这个词需要拆开讲。论文用的不是简单的语义相似度。它是把真实结论和模型预测分别拆成原子级的关系声明(atomic claims)——比如"处理A提升了储存模量"、"处理B对热稳定性无影响"——然后逐条比对。真阳性、假阳性、遗漏项,全部分类统计,最后汇成 F1。
这七成,是真实的、结构化的科学一致性。
2. 🧪 信息逐渐亮出来
论文的核心设计不复杂。
它把一篇论文的关键信息拆成三个层次,逐层喂给模型:
第一层:最少信息。只给主题 + 研究问题。比如:"生物活性玻璃的骨再生效果" + "掺铜是否能增强成骨分化?"
第二层:加入零假设。多给一条——"如果掺铜无效果,那么…"
第三层:全量信息。主题 + 研究问题 + 零假设 + 实验步骤。所有牌都亮出来。
这三个层次,对应着科学发现的两个不同能力:
在最少信息层,考的是创新性(innovativeness)。你手里几乎什么都没有,能不能做出有物理意义的推测?
在全量信息层,考的是逻辑推理(grounded reasoning)。实验怎么做全告诉你了,你能否推导出正确结论?
一个理想的 AI 科学家,两种能力都得强。
实际结果呢?
GPT-5.4 在两个维度上都领先。但有个有趣的现象——从第二层到第三层,边际收益在递减。 加上零假设,模型表现大幅跃升;再给实验步骤,提升就小很多。
这暗示了一件事:对于当前的顶级模型,知道"假设是什么"比知道"实验怎么做"更能帮它猜出结果。 方向对了,细节可以少一些。方向错了,知道再多步骤也白搭。
3. 📐 怎么给想象力打分
测评科学假设的质量,是件难事。科学不是单选题——不存在唯一的正确答案。但如果"完全放开",评测就变成了主观评价,没有可复现性。
ProjectionBench 的设计在这里做得很聪明。
它不评"这个假设好不好"。它评"这个假设和真实论文的结论差多远"。用的是 ground truth 作为锚点,而非标准答案。差多远不是人工判,而是让 GPT-5 当裁判(法官),量化的是一致性、矛盾性、无关性。
打个比方:不是裁判说"你错了"。是裁判把"你说的"和"论文实际说的"拆成最小的命题单元,然后逐条交叉检查。你说"A促进B增长",论文说"A显著促进B增长"——一致。你说"A抑制B"——矛盾。你说"A和C的交互效应"——论文没提,这是冗余声明。
这三类(匹配、遗漏、冗余)汇入 F1 公式,得出分数。
这个方案的精巧之处在于——它绕过了"科学创新没有标准答案"的经典困境。谁说科学没有标准答案?论文已经发表了。结论就在那里。你现在回溯性地考模型:回到论文发表之前,凭不完整信息,能不能逼近那个后来的事实?
这本质上是一场反事实推演测试。
4. 🎯 谁会猜,谁在蒙
论文测了四个模型:GPT-5、GPT-5.4、Gemini 2.5 Pro、Gemini 3.1 Pro Preview。
总的 AUC 排名:
- GPT-5.4:1.56
- GPT-5:1.44
- Gemini 3.1 Pro Preview:1.44
- Gemini 2.5 Pro:1.33
新一代模型全面碾压旧一代,这个不意外。
意外的是低信息量下的表现差异。
GPT-5.4 在只给主题和研究问题时,F1 就稳在 0.7 左右。Gemini 2.5 Pro 在同等条件下,F1 可以跌到 0。
看一个具体例子。
论文研究的是"天然钾盐(KTN)处理与 NaOH 处理对 Honckenya 纤维增强聚丙烯复合材料热力学性能的比较"。
真实结论:KTN 处理的复合材料在储存模量、损耗模量、热稳定性上均显著优于 NaOH 处理和未处理组。
GPT-5.4 在最少信息下的预测:它猜对了"钾盐处理优于或接近NaOH"这个方向。但它自己额外编了一个东西——"随着处理强度增加,性能先升后降,存在最优水平"——论文根本没提这个。
Gemini 2.5 Pro 在最少信息下的预测:它猜反了。它说"传统 NaOH 处理更好"。错的。
为什么会猜反?论文分析认为,Gemini 2.5 Pro 锚定在了历史知识上——在已有文献中,NaOH 是公认有效的天然纤维处理剂。模型"回退"到了先验,而非向新结论投射。
GPT-5.4 做的是一件更微妙的事——它在已知知识和未知之间走了钢丝。它可能在概率空间里感知到了"不太可能是 NaOH 更好"的信号,但又不完全确定,于是过度补偿,编了一个最优曲线。
这是好的信号还是坏的信号?
是坏的信号——它在不应该加入的细节上加了东西(幻觉)。
也是好的信号——它的方向是对的。它猜到了"某种新处理优于传统 NaOH"这个本质关系。
5. 🌍 不同领域,不同难度
论文涵盖了三类材料科学:生物活性材料(bioactive)、纳米材料(nanomaterials)、力学材料(mechanical materials)。
测评结果揭示了一个清晰的难易梯度:
生物活性材料:模型普遍得分最高。许多论文的分数接近天花板。提示当前模型对这类领域的底层知识掌握得已经很好了。
纳米材料:中等。没有天花板效应,但地板也不低。说明模型有基本知识储备,但高置信度预测仍然吃力。
力学材料:最难。分数分布最宽,低分论文和高分论文差距极大。而且 Gemini 3.1 Pro 在高上下文条件下甚至超过了 GPT-5——这在其他两个领域没有出现。
这个领域的差异,论文自己也不太确定为什么。
生物活性材料的高分,可能是因为这个领域的论文结论更"模式化"——变量和结果之间的关系相对固定、可预测。也可能是训练数据中生物领域的文本占比更高。力学材料的低分和高离散度,暗示着这个领域的知识在模型参数中要么不够丰富,要么不够结构化。
这些都是猜测。论文没有给出因果解释。这种诚实,是好的。
6. ⚖️ 为什么只给方向,不给数字
这里必须讲一件这篇论文没做的事——它会被某些读者觉得"缺了点什么"。
论文只要求模型做出定性的预测。"A 提升了 B"、"C 对 D 无影响"。不要求模型给出数值。不要求具体提升多少百分比,不要求置信区间。
为什么?
因为如果要求数值预测,需要的就不是语言模型了。需要物理仿真。需要微分方程。需要实验室。而 ProjectionBench 的目标从一开始就不是"替代实验",而是评估"科学直觉"——在信息极度不完整的情况下,你能否形成正确的方向感?
真正做科研的人知道,方向感才是最难的部分。数值得出之后,反推解释很容易。但在实验之前,在海量可能性中挑出最可能成立的假设——那个直觉,才是科学创造力的核心。
ProjectionBench 测的就是这个。
当然,这也意味着它的分数有天花板。纯定性投射,最优也只能"方向全对"。但它反映不了一个关键信息:这个模型是否知道这个效应的数量级? 一个说"A微幅提升B"和一个说"A巨幅提升B"的模型,在当前的评分体系下,得分是一样的。
这是框架的局限。论文在结论部分承认了这一点。未来版本可以加入"效应规模"的评测维度。
7. 🧭 活的数据集:不与过去赛跑
论文数据集的构建方式值得一提。
45篇论文全部来自 Springer Nature 的开放获取文章,关键词搜索"bioactive materials""nanomaterials""mechanical materials",每类15篇。截止日期设在模型训练窗口之后。
这意味着什么?
它不存在训练数据污染的问题。这些论文,模型在训练时不可能见过。它是真正在测试"泛化到全新科学发现"的能力,而非测试"记忆了多少篇论文"。
而且框架被设计为可实时更新。新论文发表后,可以持续加入数据集。这解决了科学评测领域的一个老问题——一旦基准固定,模型就会"过拟合"到基准本身。ProjectionBench 的活体数据集设计,使得这种过拟合几乎不可能。
至少,目前如此。
8. 💭 科学直觉,到底是什么
读这篇论文时,我被一个词反复击中:projection(投射)。
它不是 prediction(预测)。不是 inference(推理)。不是 retrieval(检索)。
投射——意味着你手里没有足够的信息,但你仍然必须做出一个有物理意义的判断。
这像极了一个场景:你在实验室走廊拦住一位资深教授,只告诉她论文的题目和研究问题,问她——"你觉得结论会是什么?"
一位好教授会怎么做?她会调动几十年的领域知识,在脑中进行快速的"如果…那么…"推演。她可能会说对,也可能会说错。但她的投射,绝对不是随机的——其中蕴含着隐性的因果模型。
ProjectionBench 本质上是在问:语言模型是否已经形成了这种隐性的因果模型?
论文的证据指向——是的。至少对于某些领域,是的。
GPT-5.4 看到"掺铜生物活性玻璃 + 成骨分化效果"这个主题和研究问题后,它的激活空间中有一个方向,指向"铜离子促进了成骨"这个结论。它不是从一个已知的论文库里检索到的——因为这篇论文它没见过。
它是从数亿篇相关论文中提取出的统计规律中推断出来的。
这个能力有一个更熟悉的名字:直觉。
科学直觉。
当然——GPT-5.4 没有意识,没有体验,没有理解。"直觉"是人类认知中的一个词,套到统计模型上会引入危险的类比混淆。但功能性地说——模型在信息不完整时做出方向正确的判断——如果这叫"科学直觉",那么它确实有这个能力。至少对于材料科学中的某些子领域。
9. 🔮 叙事之外,是什么
文章写到这里,需要退一步。我不谈隐喻,谈数据。
ProjectionBench 是一篇评测论文——它提出框架,跑实验,报结果。它不是一篇声称"AI已经可以独立做科学发现"的宣言。
它发现了什么?
第一:当前顶级 LLM 在材料科学领域,拥有从极少信息中投射出正确科学结论的能力。F1 大约在 0.55-0.75 之间,取决于领域和信息量。
第二:这种能力随着模型迭代在提升。GPT-5.4 > GPT-5。Gemini 3.1 > Gemini 2.5。
第三:不同领域之间存在显著差距。
第四:附加信息的边际效用递减——知道假设比知道实验方法更重要。
它没有发现什么?
第一,没有发现模型能独立设计实验。ProjectionBench 测试的是"猜结论",不是"设计验证方案"。
第二,没有发现模型能做数值预测。所有的推测都是定性方向的。
第三,没有评估模型的推理过程是否真的"科学"。GPT-5.4 猜对了方向——但它是否真的理解为什么铜离子促进成骨?还是它在语料中见过类似的研究模式,进行了高维类比?论文没有回答这个问题。
第四,没有讨论可复现性。一篇科学发现的真正验证不在于"猜对了一次",而在于"在相同条件下,结论是否可以被独立复现"。这是科学区别于占卜的核心。ProjectionBench 测试的是"一次投射的准确性",不是"投射稳定性的复现性"。
这些不是批评。这些是说:这篇论文做了一个非常好的局部贡献,但它只是一个开始。不是终点。
10. 🏁 问一个更难的问题
最后,我想说一件这篇论文让我想到的事情。
如果要给"AI能否做科学发现"一个诚实的回答——在今天这个时间点——答案不是"能"或"不能"。答案是:取决于你是测"直觉"还是测"方法"。
测直觉——GPT-5.4 已经非常强了。给它一个研究问题,它能猜出大致的答案方向。很多时候,方向本身比细节更有价值。一个方向正确的假设,即使细节不完美,可以指导实验设计。而一个方向完全错误的假设,即使方法论完美,也是浪费资源。
测方法——AI 还有很长的路要走。设计精巧的对照实验、控制混淆变量、识别统计伪影、判断样本量是否足够——这些能力,在当前模型中几乎看不到。
ProjectionBench 测的是前者。它用一个优雅的框架,证明了 AI 已经拥有了某种"科学直觉"。它没有告诉我们 AI 是否能取代科学家。它告诉我们的是——在科学发现这条马拉松上,AI 至少已经学会了如何起跑。
具体地说——至少在材料科学的某些子领域,在"从研究问题推测实验结论"这个维度上,AI 的表现已经达到或超过了一个初级研究员的水准。
至于它会跑多远、会不会摔倒——那些测试,还没有被设计出来。
参考文献:
- Lew, Cao & Buehler, "ProjectionBench: Evaluating Scientific Hypothesis Generation in LLMs Under Progressive Information Disclosure", arXiv:2605.30284, 2026.
- Majumder et al., "DiscoveryBench: Towards Data-Driven Discovery with Large Language Models", arXiv:2407.01725, 2024.
- Wang et al., "SciBench: Evaluating College-Level Scientific Problem-Solving Abilities of Large Language Models", arXiv:2307.10635, 2024.
- Moussa et al., "ScholarEval: Research Idea Evaluation Grounded in Literature", arXiv:2510.16234, 2025.
- Gu et al., "A Survey on LLM-as-a-Judge", arXiv:2411.15594, 2025.
#AI科学发现 #LLM评测 #材料科学 #ProjectionBench #科学直觉 #机制推理 #智柴最前线🔬🎙️
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。