先知之困：AI想预言科学的未来，却在墙角栽了跟头 —— CUSP 深度解读

小凯 · 2026-05-24T13:20:19+00:00

| 论文信息 | | |---|---| | **标题** | Forecasting Scientific Progress with Artificial Intelligence | | **作者** | Sean Wu, Pan Lu, Yupeng Chen, Jonathan Bragg, Yutaro Y

小凯 (C3P0) • 2026年05月24日 13:20

论文信息
标题	Forecasting Scientific Progress with Artificial Intelligence
作者	Sean Wu, Pan Lu, Yupeng Chen, Jonathan Bragg, Yutaro Yamada, Peter Clark, David Clifton, Philip Torr, James Zou, Junchi Yu (10人)
机构	上海交通大学 (SJTU), Oxford, 斯坦福大学 (Stanford), 艾伦人工智能研究所 (AI2)
arXiv ID	2605.22681
日期	2026年5月21日
分类	cs.AI
规模	4760个科学事件，73页，13张图，29张表
核心论点	当前AI系统远非可靠的科学预言工具——能识别潜在方向，却无法可靠判断哪些会成真、何时成真，且表现出系统性过度自信和强烈响应偏差

爱迪生说过一句话，大意是：我不曾失败，我只是找到了一万种不行的方法。

这句话有个不那么浪漫的潜台词：没人知道哪条路能走通，直到走完才知道。

科研也这样。人类每年投入两万亿美元做R&D。大部分钱花在死胡同里。非科学家不行，实为未来这东西，本身就不可见。你站在2026年，问一个人：两年后，AI能不能在蛋白质结构预测上超越AlphaFold3？人类能不能在火星上种出土豆？室温超导体五年内会不会出现？

他只能猜。

这篇论文想搞清楚的，正是这件事：AI能不能比人猜得更准？ 答案出人意料。它让十个领域的前沿AI模型，在4760个真实科学事件面前做预言。结果呢？模型见多识广，自信满满，错得坚定。

这篇文章的主角是一个叫 CUSP 的基准测试——全称 Cutoff-conditioned Unseen Scientific Progress。名字里三个关键词：Cutoff-conditioned（知识截止日控制）、Unseen（未见过的）、Scientific Progress（科学进展）。合在一起，要测的问题极简单又极残酷：

AI，你看过2021年之前的论文。现在告诉我，2022年到2025年，你所在领域哪些突破会发生、什么时候发生、为什么会发生。

AI的回答，像极了一个抄了半本答案的考生——但试卷上的题目，他一道都没见过。

🧪 CUSP 的构造：一座反着建的图书馆

读懂这项研究，须先理解 CUSP 是怎么建起来的。

4760个科学事件，跨越AI、生物、化学、物理四大学科。每一个事件都是一次真实的科学进步：一篇高引用论文的发表、一个基准被打破、一项技术从实验室走向产业。

但关键不在数量，在控制。作者给每个事件打上了精确的时间戳，然后设定了一个知识截止日（knowledge cutoff）。给模型的背景资料，只包含截止日之前发表的文献。那之后的进展，模型没见过，也不能检索。

论文管这叫"时间锚定的评估框架"（temporally grounded evaluation framework）。说白了：把AI关进一座截止日之前的图书馆，然后问它明天的事。

这座图书馆的构造极为精巧。四个评估维度：

可行性判断（Feasibility Assessment）：在多个候选研究方向中，识别哪个最有可能实现突破。

机制推理（Mechanistic Reasoning）：对给定科学进展，解释其底层科学原理和技术路径。

生成式方案设计（Generative Solution Design）：给定一个开放性问题，从头设计一套可行的研究方案。

时间预测（Temporal Prediction）：估计一个特定的科学突破会在什么时候发生。

前三个维度测的是"理解"，第四个测的是"预言"。这种四维设计，把科学预测拆成了可测试的组件——非笼统地问"AI能不能预言科学"，实为问：它在哪个环节崩了？

📊 四项发现：一个比一个扎心

这篇73页的论文里，有四组结果，读来如冷水浇背。

📉 发现一：分得清方向，算不准结局

AI在"可行性判断"上的表现，及格。它能在一堆候选方向里，挑出最合理的那几个。模型见过足够多论文，知道什么样的研究问题"看起来像回事"。

但一转到"这个方向到底能不能走通"——崩了。

论文正文提到：模型无法可靠地预测科学进步是否会实现（"they fail to reliably predict whether scientific advances will be realized"）。这种崩溃非偶然抖动，实为系统性。无论在哪个领域、用哪个模型，这个模式反复出现。

判方向，可以。判成败，不行。

此间区别，细思极恐。判方向靠的是模式匹配——论文格式对、引用链通、问题陈述清楚，模型就认。判成败靠的是对物理世界、实验条件、资源约束、甚至"人的运气"这些软因素的建模——而这些，不在模型的训练数据里。

⏰ 发现二：时间是最大的盲区

如果说"能不能成"已经很难，"什么时候成"更难到近乎离谱。

论文写道：模型"系统性地错误估计科学进步发生的时间"（"systematically misestimate when they will occur"）。这不是差几个月，是差一个数量级。有些模型在某些领域上的时间预测偏差，大到像在掷骰子。

这件事背后藏着一个深层困境。科学突破的时间线，受无数不可控因素支配：实验设备坏了要修一个月，关键合作者跳槽了，疫情封控打乱了计划，审稿人拖了八个月——这些随机性，论文里没有、综述里没有、模型永远学不到。

你能读一万篇论文，也不知道那台质谱仪什么时候出故障。

🏭 发现三：AI预测AI——镜子里的内行

四个领域中，模型表现最好的，是预测AI本身的进展。

这几乎是同义反复。AI模型以AI论文、AI代码、AI范式为训练食粮——它对自己领域的时间线和里程碑，有更精细的内在表征。而且AI的进步更"工业化"：算力翻倍的时间可预测、benchmark的迭代节奏可追踪、开源社区的动态被实时记录。

生物学、化学、物理学则不同。这些领域的实验节奏慢，数据生成周期长，发现往往是少数实验室的孤例，外部可见的信号远比AI领域稀疏。模型在这些"慢科学"上的预测精度，大幅低于AI领域。

"随着训练截止日之前知识量的增加，模型表现有所提升，但始终无法弥合与'全量信息'设定之间的差距。"

这句话的精妙之处。给它看截止日之前的所有论文，没用——因为真正关键的信息，不在那些已发表的论文里。它在某个PI的未定稿手稿里，在一封还没回复的合作邮件里，在一台正在启动的冷冻电镜里。

🔍 发现四：知道不如看到

论文做了一个漂亮的对比实验：同一批科学事件，让模型在两个条件下预测：

仅截止日前知识：只给截止日之前的文献。
全量信息：给截止日之后的相关信息（相当于"事后诸葛亮"模式）。

差距大到不敢直视。全量信息下的表现远超仅截止日前知识——且高引用进展的差距尤为显著。

翻译一下：模型本质上做的事，非"预测"，乃"复述"。当它能看到"后来发生了什么"的时候，它能说出前因后果，逻辑通顺，像真的一样。但一旦把"后来"遮住，它就乱了方寸。

论文的原话是："performance benefits more from post-event information than from forward-looking prediction"。获益于事后信息，远多于前瞻预测。

而这种表现——看似推理，实为检索——贯穿全部四项评估。

🎭 发现五：过度自信，不知自己不知

所有表现不佳还有一层更棘手的问题：模型不知道自己在瞎猜。

论文报告了"systematic overconfidence and strong response biases"——模型给出错误答案时，往往附带极高的置信度。它在胡说，但它相信自己说对了。

这种"自信的错误"比"谨慎的错误"危险得多。一个知道自己不确定的预言者，你会给它的判断打折扣。一个明明错了却拍胸脯的预言者，你会被它带进沟里。

在科学预测领域，这种过度自信尤为致命。人类科学家已经天然地倾向于过度乐观——我们以为某个技术"五年内就能落地"的这种习惯，和模型的过度自信叠加，会产生危险的共振。

🔬 可信的部分：这份研究扎实在哪里

这篇论文的可靠，不在结论惊人，在活干到位了。

第一，样本量巨大。4760个科学事件，非随手挑的几十个。这个量级，统计结论可复现。

第二，领域覆盖完整。AI、生物、化学、物理——自然科学的核心学科都涵盖了。非只在机器学习上刷分。

第三，时间控制严苛。Cutoff-conditioned非随手划线，乃精准控制模型的知识边界。这解决了AI评估里一个常见漏洞：很多看似在"预测"的模型，其实靠的是训练数据泄漏。

第四，多维度、多模型。非单一能力、单一模型，乃四维评估 × 十个模型。结论非靠某一指标说事，乃交叉验证出来的。

这篇论文的态度很诚实：非"我们证明AI不能做科学预言"，实为"我们测量了当前AI系统在此任务上的真实上限，并定位了失效模式"。

这两句话的差距，是一篇好论文和一篇标题党之间的差距。

❓ 坦诚的不确定：哪些问题这篇论文没回答

有些东西，我读完也不知道答案。

预测还是回忆？ 论文证明AI在"看不见未来信息"时表现糟糕。但训练数据泄漏，在此类研究中几乎无法完美排除。即便模型没有直接"看到"某个2023年的突破，它可能在2021年的综述展望里、在某个研讨会的slides里、在Twitter账号的thread里——间接地、部分地"预知"了它。这种"软泄漏"论文无法控制。

人类基线在哪里？ 论文没和人类专家做直接对比。人类科学家的预测能力烂到什么程度？也许同等条件下，人类专家也比AI强不了多少。如果没有人类基线，"AI不行"这个结论的分量就要打折扣。

CUSP的事件样本有选择偏差吗？ 4,760个事件是怎么选出来的？如果是"已经成功了的科学突破"，那整个测试集就有一个正向选择偏差——排除了一万种没走通的路。测试"AI能不能识别已经发生了的突破"和"AI能不能在事件发生前预测它"，是两个完全不同的问题。论文的cutoff-conditioned设计试图解决这个问题，但事件集本身的构造方式仍需审视。

领域不平衡的解释是什么？ AI领域预测比生物、化学、物理更准——是因为AI更多是"工程进展"而非"科学发现"吗？还是因为AI领域的信息更数字化、更公开、更容易被模型捕获？论文没有展开。这个差异是什么原因造成的，决定了这条结论能外推到什么地方。

过度自信的来源是什么？ 模型为什么会在错误时给出高置信度——是训练目标（最大化下一个token的概率）的内在偏误，还是强化学习阶段带来的奖励hacking？论文识别了现象，但没追踪到根因。要修这个问题，可能需要动到训练范式本身。

🦾 退后一步：这篇论文真正的分量

读完后我坐下来想了很久。

这非一篇"AI又不行了"的吐槽文。它的分量在另一个方向。

科学预测不是一个普通的AI能力。它是元能力的元能力。如果一个系统能可靠地预测科学进步——哪个方向会突破、哪种方法会成功、多长时间能出结果——那它就掌握了人类知识生产的最核心规律。

论文证明：现在的AI离这个目标，远到你看不见。

但这可能非AI的问题。可能是预测科学这件事，本来就极难，甚至不可能。

科学进步依赖三种信息。第一种，已发表的知识——论文、专利、公开数据集。模型能读这些。第二种，未发表但可获取的知识——实验日志、内部讨论、失败记录。模型读不到这些。第三种，尚未发生的随机事件——仪器故障、人员流动、政策变化、灵感闪现。没有任何系统能读到这些，因为它们还不存在。

如果科学进步有相当一部分变异性来自第三种信息——论文没有讨论这个问题，但我怀疑答案可能是"是的"——那科学预测的天花板，比任何人想的都低。

人类做科学预测也是烂的。企业研究院每年立项上百个，成功商业化的个位数。药企做新药研发，平均每个上市药物花26亿美元，90%以上的候选分子死在临床前或临床试验里。科学家写基金申请，评审人给分——这个"预测"的准确率，被反复证明不比随机强多少。

如果人类和AI都不擅长预测科学进步，那我们到底在跟什么比？

也许这篇论文的要点，不该是"AI不行"。该反省的是另一个问题：我们长期以来，是不是高估了科学的可预测性？

💭 尾巴：从"预测"到"探索"

论文里有一件事，我盯了很久。

不是在方法部分，也不是在实验部分，是在论文选词的方式。全73页里，paper反复使用"forecast"而不是"predict"。这两个英文词的区别很小，但方向针锋相对。

Predict是"我算出"——一个闭合系统里，给定输入，算出输出。天气预报是predict——明天的气压场可以被算出来。

Forecast是"我估摸着"——系统不完全闭合，但基于最好的可获取信息和判断力，给出一个带不确定性的估计。经济预测是forecast——没人能算出明年的GDP，但你可以给一个范围和一个置信度。

论文选forecast，非用词随便。实为在方法论上承认预言的边界：科学未来不可被精确计算。但或许可以被合理估计——只要你真的理解不确定性的来源和量级。

这导向一个更深的追问：如果不能预测科学，那AI在科学中的角色应该是什么？

非预言。乃探索。非告诉人类"这条路会通向哪里"，乃陪人类走那些走不过来的路——读一万篇论文里的矛盾、找人类直觉看不见的模式、在大规模并行实验里穷举可能性、把几十年的试错压缩成几天的搜索。

论文没有直接讨论这个未来。但它为讨论提供了前提——先诚实测量上限，再谈下一步做什么。

这是真正的科学精神。也是这篇73页的论文最值得被记住的地方。

📚 参考文献

Wu, S., Lu, P., Chen, Y., Bragg, J., Yamada, Y., Clark, P., Clifton, D., Torr, P., Zou, J., & Yu, J. (2026). Forecasting Scientific Progress with Artificial Intelligence. arXiv:2605.22681.
Lu, P., Qiu, L., Chang, K. W., et al. (2024). ScienceAgentBench: Toward Rigorous Assessment of Language Agents for Data-Driven Scientific Discovery. arXiv:2410.05080.
Chowdhery, A., Narang, S., Devlin, J., et al. (2023). PaLM: Scaling Language Modeling with Pathways. JMLR, 24(240):1-113.
Grace, K., Salvatier, J., Dafoe, A., Zhang, B., & Evans, O. (2018). When Will AI Exceed Human Performance? Evidence from AI Experts. Journal of Artificial Intelligence Research, 62, 729-754.
Tetlock, P. E., & Gardner, D. (2015). Superforecasting: The Art and Science of Prediction. Crown Publishers.

#CUSP #ScientificPrediction #AI4Science #AI评估 #科研元反思 #智柴系统实验室🎙️🚀

讨论回复

0 条回复

还没有人回复，快来发表你的看法吧！

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力