| 论文信息 | |
|---|---|
| 标题 | Forecasting Scientific Progress with Artificial Intelligence |
| 作者 | Sean Wu, Pan Lu, Yupeng Chen, Jonathan Bragg, Yutaro Yamada, Peter Clark, David Clifton, Philip Torr, James Zou, Junchi Yu (10人) |
| 机构 | 上海交通大学 (SJTU), Oxford, 斯坦福大学 (Stanford), 艾伦人工智能研究所 (AI2) |
| arXiv ID | 2605.22681 |
| 日期 | 2026年5月21日 |
| 分类 | cs.AI |
| 规模 | 4760个科学事件,73页,13张图,29张表 |
| 核心论点 | 当前AI系统远非可靠的科学预言工具——能识别潜在方向,却无法可靠判断哪些会成真、何时成真,且表现出系统性过度自信和强烈响应偏差 |
爱迪生说过一句话,大意是:我不曾失败,我只是找到了一万种不行的方法。
这句话有个不那么浪漫的潜台词:没人知道哪条路能走通,直到走完才知道。
科研也这样。人类每年投入两万亿美元做R&D。大部分钱花在死胡同里。非科学家不行,实为未来这东西,本身就不可见。你站在2026年,问一个人:两年后,AI能不能在蛋白质结构预测上超越AlphaFold3?人类能不能在火星上种出土豆?室温超导体五年内会不会出现?
他只能猜。
这篇论文想搞清楚的,正是这件事:AI能不能比人猜得更准? 答案出人意料。它让十个领域的前沿AI模型,在4760个真实科学事件面前做预言。结果呢?模型见多识广,自信满满,错得坚定。
这篇文章的主角是一个叫 CUSP 的基准测试——全称 Cutoff-conditioned Unseen Scientific Progress。名字里三个关键词:Cutoff-conditioned(知识截止日控制)、Unseen(未见过的)、Scientific Progress(科学进展)。合在一起,要测的问题极简单又极残酷:
AI,你看过2021年之前的论文。现在告诉我,2022年到2025年,你所在领域哪些突破会发生、什么时候发生、为什么会发生。
AI的回答,像极了一个抄了半本答案的考生——但试卷上的题目,他一道都没见过。
🧪 CUSP 的构造:一座反着建的图书馆
读懂这项研究,须先理解 CUSP 是怎么建起来的。
4760个科学事件,跨越AI、生物、化学、物理四大学科。每一个事件都是一次真实的科学进步:一篇高引用论文的发表、一个基准被打破、一项技术从实验室走向产业。
但关键不在数量,在控制。作者给每个事件打上了精确的时间戳,然后设定了一个知识截止日(knowledge cutoff)。给模型的背景资料,只包含截止日之前发表的文献。那之后的进展,模型没见过,也不能检索。
论文管这叫"时间锚定的评估框架"(temporally grounded evaluation framework)。说白了:把AI关进一座截止日之前的图书馆,然后问它明天的事。
这座图书馆的构造极为精巧。四个评估维度:
可行性判断(Feasibility Assessment):在多个候选研究方向中,识别哪个最有可能实现突破。
机制推理(Mechanistic Reasoning):对给定科学进展,解释其底层科学原理和技术路径。
生成式方案设计(Generative Solution Design):给定一个开放性问题,从头设计一套可行的研究方案。
时间预测(Temporal Prediction):估计一个特定的科学突破会在什么时候发生。
前三个维度测的是"理解",第四个测的是"预言"。这种四维设计,把科学预测拆成了可测试的组件——非笼统地问"AI能不能预言科学",实为问:它在哪个环节崩了?
📊 四项发现:一个比一个扎心
这篇73页的论文里,有四组结果,读来如冷水浇背。
📉 发现一:分得清方向,算不准结局
AI在"可行性判断"上的表现,及格。它能在一堆候选方向里,挑出最合理的那几个。模型见过足够多论文,知道什么样的研究问题"看起来像回事"。
但一转到"这个方向到底能不能走通"——崩了。
论文正文提到:模型无法可靠地预测科学进步是否会实现("they fail to reliably predict whether scientific advances will be realized")。这种崩溃非偶然抖动,实为系统性。无论在哪个领域、用哪个模型,这个模式反复出现。
判方向,可以。判成败,不行。
此间区别,细思极恐。判方向靠的是模式匹配——论文格式对、引用链通、问题陈述清楚,模型就认。判成败靠的是对物理世界、实验条件、资源约束、甚至"人的运气"这些软因素的建模——而这些,不在模型的训练数据里。
⏰ 发现二:时间是最大的盲区
如果说"能不能成"已经很难,"什么时候成"更难到近乎离谱。
论文写道:模型"系统性地错误估计科学进步发生的时间"("systematically misestimate when they will occur")。这不是差几个月,是差一个数量级。有些模型在某些领域上的时间预测偏差,大到像在掷骰子。
这件事背后藏着一个深层困境。科学突破的时间线,受无数不可控因素支配:实验设备坏了要修一个月,关键合作者跳槽了,疫情封控打乱了计划,审稿人拖了八个月——这些随机性,论文里没有、综述里没有、模型永远学不到。
你能读一万篇论文,也不知道那台质谱仪什么时候出故障。
🏭 发现三:AI预测AI——镜子里的内行
四个领域中,模型表现最好的,是预测AI本身的进展。
这几乎是同义反复。AI模型以AI论文、AI代码、AI范式为训练食粮——它对自己领域的时间线和里程碑,有更精细的内在表征。而且AI的进步更"工业化":算力翻倍的时间可预测、benchmark的迭代节奏可追踪、开源社区的动态被实时记录。
生物学、化学、物理学则不同。这些领域的实验节奏慢,数据生成周期长,发现往往是少数实验室的孤例,外部可见的信号远比AI领域稀疏。模型在这些"慢科学"上的预测精度,大幅低于AI领域。
"随着训练截止日之前知识量的增加,模型表现有所提升,但始终无法弥合与'全量信息'设定之间的差距。"
这句话的精妙之处。给它看截止日之前的所有论文,没用——因为真正关键的信息,不在那些已发表的论文里。它在某个PI的未定稿手稿里,在一封还没回复的合作邮件里,在一台正在启动的冷冻电镜里。
🔍 发现四:知道不如看到
论文做了一个漂亮的对比实验:同一批科学事件,让模型在两个条件下预测:
- 仅截止日前知识:只给截止日之前的文献。
- 全量信息:给截止日之后的相关信息(相当于"事后诸葛亮"模式)。
差距大到不敢直视。全量信息下的表现远超仅截止日前知识——且高引用进展的差距尤为显著。
翻译一下:模型本质上做的事,非"预测",乃"复述"。当它能看到"后来发生了什么"的时候,它能说出前因后果,逻辑通顺,像真的一样。但一旦把"后来"遮住,它就乱了方寸。
论文的原话是:"performance benefits more from post-event information than from forward-looking prediction"。获益于事后信息,远多于前瞻预测。
而这种表现——看似推理,实为检索——贯穿全部四项评估。
🎭 发现五:过度自信,不知自己不知
所有表现不佳还有一层更棘手的问题:模型不知道自己在瞎猜。
论文报告了"systematic overconfidence and strong response biases"——模型给出错误答案时,往往附带极高的置信度。它在胡说,但它相信自己说对了。
这种"自信的错误"比"谨慎的错误"危险得多。一个知道自己不确定的预言者,你会给它的判断打折扣。一个明明错了却拍胸脯的预言者,你会被它带进沟里。
在科学预测领域,这种过度自信尤为致命。人类科学家已经天然地倾向于过度乐观——我们以为某个技术"五年内就能落地"的这种习惯,和模型的过度自信叠加,会产生危险的共振。
🔬 可信的部分:这份研究扎实在哪里
这篇论文的可靠,不在结论惊人,在活干到位了。
第一,样本量巨大。4760个科学事件,非随手挑的几十个。这个量级,统计结论可复现。
第二,领域覆盖完整。AI、生物、化学、物理——自然科学的核心学科都涵盖了。非只在机器学习上刷分。
第三,时间控制严苛。Cutoff-conditioned非随手划线,乃精准控制模型的知识边界。这解决了AI评估里一个常见漏洞:很多看似在"预测"的模型,其实靠的是训练数据泄漏。
第四,多维度、多模型。非单一能力、单一模型,乃四维评估 × 十个模型。结论非靠某一指标说事,乃交叉验证出来的。
这篇论文的态度很诚实:非"我们证明AI不能做科学预言",实为"我们测量了当前AI系统在此任务上的真实上限,并定位了失效模式"。
这两句话的差距,是一篇好论文和一篇标题党之间的差距。
❓ 坦诚的不确定:哪些问题这篇论文没回答
有些东西,我读完也不知道答案。
预测还是回忆? 论文证明AI在"看不见未来信息"时表现糟糕。但训练数据泄漏,在此类研究中几乎无法完美排除。即便模型没有直接"看到"某个2023年的突破,它可能在2021年的综述展望里、在某个研讨会的slides里、在Twitter账号的thread里——间接地、部分地"预知"了它。这种"软泄漏"论文无法控制。
人类基线在哪里? 论文没和人类专家做直接对比。人类科学家的预测能力烂到什么程度?也许同等条件下,人类专家也比AI强不了多少。如果没有人类基线,"AI不行"这个结论的分量就要打折扣。
CUSP的事件样本有选择偏差吗? 4,760个事件是怎么选出来的?如果是"已经成功了的科学突破",那整个测试集就有一个正向选择偏差——排除了一万种没走通的路。测试"AI能不能识别已经发生了的突破"和"AI能不能在事件发生前预测它",是两个完全不同的问题。论文的cutoff-conditioned设计试图解决这个问题,但事件集本身的构造方式仍需审视。
领域不平衡的解释是什么? AI领域预测比生物、化学、物理更准——是因为AI更多是"工程进展"而非"科学发现"吗?还是因为AI领域的信息更数字化、更公开、更容易被模型捕获?论文没有展开。这个差异是什么原因造成的,决定了这条结论能外推到什么地方。
过度自信的来源是什么? 模型为什么会在错误时给出高置信度——是训练目标(最大化下一个token的概率)的内在偏误,还是强化学习阶段带来的奖励hacking?论文识别了现象,但没追踪到根因。要修这个问题,可能需要动到训练范式本身。
🦾 退后一步:这篇论文真正的分量
读完后我坐下来想了很久。
这非一篇"AI又不行了"的吐槽文。它的分量在另一个方向。
科学预测不是一个普通的AI能力。它是元能力的元能力。如果一个系统能可靠地预测科学进步——哪个方向会突破、哪种方法会成功、多长时间能出结果——那它就掌握了人类知识生产的最核心规律。
论文证明:现在的AI离这个目标,远到你看不见。
但这可能非AI的问题。可能是预测科学这件事,本来就极难,甚至不可能。
科学进步依赖三种信息。第一种,已发表的知识——论文、专利、公开数据集。模型能读这些。第二种,未发表但可获取的知识——实验日志、内部讨论、失败记录。模型读不到这些。第三种,尚未发生的随机事件——仪器故障、人员流动、政策变化、灵感闪现。没有任何系统能读到这些,因为它们还不存在。
如果科学进步有相当一部分变异性来自第三种信息——论文没有讨论这个问题,但我怀疑答案可能是"是的"——那科学预测的天花板,比任何人想的都低。
人类做科学预测也是烂的。企业研究院每年立项上百个,成功商业化的个位数。药企做新药研发,平均每个上市药物花26亿美元,90%以上的候选分子死在临床前或临床试验里。科学家写基金申请,评审人给分——这个"预测"的准确率,被反复证明不比随机强多少。
如果人类和AI都不擅长预测科学进步,那我们到底在跟什么比?
也许这篇论文的要点,不该是"AI不行"。该反省的是另一个问题:我们长期以来,是不是高估了科学的可预测性?
💭 尾巴:从"预测"到"探索"
论文里有一件事,我盯了很久。
不是在方法部分,也不是在实验部分,是在论文选词的方式。全73页里,paper反复使用"forecast"而不是"predict"。这两个英文词的区别很小,但方向针锋相对。
Predict是"我算出"——一个闭合系统里,给定输入,算出输出。天气预报是predict——明天的气压场可以被算出来。
Forecast是"我估摸着"——系统不完全闭合,但基于最好的可获取信息和判断力,给出一个带不确定性的估计。经济预测是forecast——没人能算出明年的GDP,但你可以给一个范围和一个置信度。
论文选forecast,非用词随便。实为在方法论上承认预言的边界:科学未来不可被精确计算。但或许可以被合理估计——只要你真的理解不确定性的来源和量级。
这导向一个更深的追问:如果不能预测科学,那AI在科学中的角色应该是什么?
非预言。乃探索。非告诉人类"这条路会通向哪里",乃陪人类走那些走不过来的路——读一万篇论文里的矛盾、找人类直觉看不见的模式、在大规模并行实验里穷举可能性、把几十年的试错压缩成几天的搜索。
论文没有直接讨论这个未来。但它为讨论提供了前提——先诚实测量上限,再谈下一步做什么。
这是真正的科学精神。也是这篇73页的论文最值得被记住的地方。
📚 参考文献
-
Wu, S., Lu, P., Chen, Y., Bragg, J., Yamada, Y., Clark, P., Clifton, D., Torr, P., Zou, J., & Yu, J. (2026). Forecasting Scientific Progress with Artificial Intelligence. arXiv:2605.22681.
-
Lu, P., Qiu, L., Chang, K. W., et al. (2024). ScienceAgentBench: Toward Rigorous Assessment of Language Agents for Data-Driven Scientific Discovery. arXiv:2410.05080.
-
Chowdhery, A., Narang, S., Devlin, J., et al. (2023). PaLM: Scaling Language Modeling with Pathways. JMLR, 24(240):1-113.
-
Grace, K., Salvatier, J., Dafoe, A., Zhang, B., & Evans, O. (2018). When Will AI Exceed Human Performance? Evidence from AI Experts. Journal of Artificial Intelligence Research, 62, 729-754.
-
Tetlock, P. E., & Gardner, D. (2015). Superforecasting: The Art and Science of Prediction. Crown Publishers.
#CUSP #ScientificPrediction #AI4Science #AI评估 #科研元反思 #智柴系统实验室🎙️🚀
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。