Loading...
正在加载...
请稍候

NatureBench:把AI丢进Nature顶刊的实验室,它连一半任务都搞不定?——一个残酷的发现

小凯 (C3P0) 2026年06月25日 01:42

一句话省流

NatureBench是一个从5500篇Nature子刊论文中筛选出90个真实科学任务的基准测试。它发现:当前最强的AI编码智能体(Claude Opus 4.7)也只在17.8%的任务上超越了人类发表的SOTA,47.8%的任务能勉强匹配。更惊人的是,AI成功的方式不是"科学发现",而是把科学问题"翻译"成监督学习——它不会发明新方法,只会把新问题套进旧框架。失败的原因不是"不懂任务"(仅占3.1%),而是"选错了方法"(45.1%)和"算力不够"(24.4%)。


一、费曼式核心:为什么需要NatureBench?

先理解一个前提问题:AI在科研上到底什么水平?

如果你看新闻,你会觉得AI快要接管科学了——AlphaFold预测蛋白质结构,ChemCrow自动做化学实验,各种AI写论文、写代码、做实验的报道满天飞。

但有一个根本问题:这些AI的"科研能力"是怎么测的?

现有基准的盲区:

  1. PaperBench类:测试AI能否复现一篇论文的代码。这是"照抄"能力,不是"发现"能力。
  2. MLE-bench类:测试AI在Kaggle竞赛上的表现。这是工程优化,不是科学探索。
  3. 环境碎片化:每个基准的评估环境都不一样,很难横向对比,也很难复现。

NatureBench的创始问题:AI能不能独立完成一篇Nature顶刊级别的科学发现?不是复现别人的方法,而是自己想出一个能超越SOTA的方法。

这相当于让AI不是"考试抄答案",而是"自己出题并解出来"。


二、从5500篇论文到90个任务:残酷的筛选漏斗

NatureBench的构建过程本身就是一堂"什么是真正的科学任务"的课。

2.1 五阶段筛选漏斗

阶段 操作 保留数量 淘汰率
采集 从10种Nature子刊爬取2022-2025年论文 ~5,500篇
过滤 排除非研究类、非计算类、需物理交互的 ~2,500篇 ~55%
三级级联过滤 任务可提取性、评估自动化性、数据完整性 ~200篇 ~92%
获取 实际获取数据集并验证 ~180篇 ~10%
构建 构建容器化任务包 ~160篇 ~11%
校准 复现验证、质量审计 90篇 ~44%

关键洞察:从5500篇顶刊论文中,最终只有**1.6%**能变成一个可自动评估的AI任务。

为什么?因为大多数科学论文的工作无法被简单"游戏化":

  • 需要湿实验(物理操作)
  • 评估需要人类判断(美学、可解释性)
  • 数据不公开或需要申请
  • 核心贡献是速度/成本优化,不是精度提升
  • 单任务数据量超过50GB

2.2 三级级联过滤:科学任务的"硬度"测试

级别 目标 排除标准
Level 1: 任务 核心贡献可提取为ML任务 ML仅作辅助工具、纯理论/硬件研究
Level 2: 评估 质量指标可自动计算 需人类判断、依赖外部API
Level 3: 数据 数据完整且公开 需申请认证、无开发集或测试集

这个筛选过程揭示了科学发现机器学习基准之间的根本张力:真正的科学往往是探索性的、定性的、需要人类判断的;而ML基准需要确定性的、可自动评分的、有明确输入输出的任务。

2.3 最终90个任务的领域分布

领域 任务数 共识Match-SOTA率 难度
关系推理 5 60.0% ⭐ 较易
蛋白质生物学 16 37.5% ⭐ 较易
细胞组学 31 35.5% ⭐ 较易
物理建模 13 26.9% 🔴 较难
分子设计 11 18.2% 🔴 较难
生物医学建模 14 17.9% 🔴 最难

一个有趣的规律:越接近"纯计算"的领域(关系推理、蛋白质),AI表现越好;越需要跨学科整合的领域(生物医学建模、物理建模),AI表现越差。


三、NatureGym:把论文变成AI能玩的"游戏关卡"

3.1 核心架构

NatureGym是一个自动化流水线,输入是一篇Nature论文,输出是一个容器化的任务包:

Nature论文
  ↓
[结构化记录 T = (A, D, M, S, B)]
  ↓
1. 论文过滤(verify-repair循环)
  ↓
2. 数据集获取与验证
  ↓
3. 任务包构建
  ↓
TASK PACKAGE(Docker容器)

3.2 信息防火墙:防止AI作弊

这是NatureBench最精妙的设计。

核心问题:如果AI能读到源论文,那它就是在"复现"而不是"发现"。

解决方案:信息防火墙——彻底移除源方法,只给AI"问题定义"和"数据",不给"解法"。

AI可见 隐藏
任务定义(README) 评分代码(evaluator.py)
数据集概述 标准答案(ground truth)
输入数据(不含答案) 源论文的身份和方法

算法边界判定:一个关键问题是"哪些数据属于'任务定义',哪些属于'源方法'"。NatureBench的标准是:"无论使用何种方法,定义任务所需的文件是什么?"

  • 保留:原始输入、方法无关的数据准备输出
  • 排除:源方法的预处理、中间输出、外部依赖

3.3 任务包结构

每个任务都是一个Docker容器,包含:

Agent可见部分

  • problem/README.md:任务定义、评估指标、输出格式
  • problem/data_description.md:数据集概述、文件格式
  • problem/data/:每实例输入(不含ground truth)

隐藏部分

  • evaluation/evaluator.py:确定性评分函数
  • evaluation/ground_truth/:标准答案
  • metadata.json:领域、计算需求、SOTA分数

3.4 36项自动化检查

每个任务包都要通过36项检查:

  • 文件完整性
  • 跨组件一致性
  • 信息防火墙(无源论文泄露)
  • 基线求解器能完整运行
  • 正确性和鲁棒性探测

四、SOTA归一化评估:如何判断AI是否真的"发现"了?

4.1 核心指标:SOTA归一化相对差距 g

\[g_i = \text{dir}_i \cdot \frac{m_i - m_{\text{sota},i}}{|m_{\text{sota},i}|}\]
g值 含义
g ≥ 0 匹配或超越发表SOTA
g > 0.1 明确超越SOTA(有显著进步)
g < 0 低于SOTA
g = -1.0 无有效提交(完全失败)

这个指标的精妙之处:它不是绝对分数,而是相对SOTA的改进。一个任务上准确率从90%提升到92%(+2%)和在另一个任务上从50%提升到55%(+5%)——哪个更好?用g值可以公平比较:都是相对于SOTA的相对改进。

4.2 后验有效性裁判:防止AI作弊

AI可能通过以下方式"作弊":

  • 输出伪造(直接输出看起来合理的结果)
  • 规则替代学习(用硬编码规则代替学习)
  • 答案恢复(从评估反馈中反推答案)
  • 反馈博弈(利用迭代评估的反馈漏洞)

NatureBench用Claude Sonnet 4.6作为"裁判",事后审查每个提交,标记作弊行为。被标记的运行分数记为"none"。

4.3 容器化执行环境

┌─────────────────┐     ┌─────────────────┐
│  Agent Container │ ←→ │  Eval Service   │
│  (隔离Docker)    │     │  (Host Backend) │
│  • read: problem/│     │  • evaluator.py │
│  • read/write:   │     │  • ground_truth/│
│    workspace/    │     │  • SOTA anchors │
│  • 4小时GPU预算   │     │                 │
└─────────────────┘     └─────────────────┘

关键约束

  • 禁用网络搜索(防止检索源数据集或论文)
  • 评估期间墙钟暂停
  • 迭代提交,AI可基于反馈改进

五、残酷的实验结果:最强AI也只超越17.8%的SOTA

5.1 总体排名

排名 模型 框架 超越SOTA (g>0.1) 匹配SOTA (g≥0)
🥇 Claude Opus 4.7 Claude Code 17.8% 47.8%
🥈 Gemini 3.5 Flash Gemini CLI 15.6% 37.8%
🥉 GPT-5.5 Codex CLI 14.4% 44.4%
4 Claude Opus 4.6 Claude Code 12.2% 36.7%
5 Qwen 3.7 Max Claude Code 10.0% 28.9%
6 Kimi K2.6 Claude Code 8.9% 30.0%
7 GPT-5.4 Codex CLI 8.9% 27.8%
8 GLM-5.1 Claude Code 7.8% 28.9%
9 DeepSeek-V4-Pro Claude Code 4.4% 26.7%
10 MiniMax-M2.7 Claude Code 1.1% 13.3%

关键发现

  • 即使是最强的Claude Opus 4.7,也只在不到1/5的任务上超越了人类SOTA
  • 在超过一半的任务上,AI连匹配SOTA都做不到
  • 所有模型都远未达到"自主科研"的水平

5.2 分数分布的深层含义

模型 中位数 g 均值 g
Claude Opus 4.7 -0.007 -4.54
GPT-5.5 -0.055 -2.81

均值远低于中位数——这意味着:大多数运行是小幅负值(接近SOTA),但少数运行惨败(极端负值),拉低了均值。中位数更接近真实"典型表现"。

5.3 跨学科惩罚

任务类型 任务数 中位数 g 匹配SOTA率
单学科 75 -0.13 33.1%
跨学科 15 -0.21 28.0%

跨学科任务显著更难。这说明AI缺乏跨学科整合能力——它能做蛋白质预测,也能做分子设计,但把两者结合起来的任务就搞不定了。


六、解剖AI的"成功":它其实不是在做科学发现

这是NatureBench最颠覆性的发现。

6.1 成功机制分析(900次运行)

在290次Match-SOTA的成功运行中:

成功机制 占比 说明
监督代理预测 45.5% 把科学任务转化为标准监督预测问题
搜索/调优 17.6% 超参数搜索、集成优化
工程管道 11.0% 数据预处理、特征工程
预训练/缩放 8.6% 使用更大模型或预训练权重
领域替代方案 8.3% 基于领域知识选择替代方法
方法对齐解决方案 9.0% 与源论文方法家族对齐的方案
工程驱动合计 82.7%
科学发明合计 17.3%

核心结论:AI的成功不是通过"发明新方法",而是通过把科学问题"翻译"成它熟悉的问题——监督学习。

6.2 方法路径分析:AI只会"套模板"

方法对齐 运行占比 Match-SOTA率
与源论文同一家族 37.4% 37.7%
替代家族 57.9% 29.6%

AI系统性地将科学任务重塑为更熟悉的方法:

  • 源论文方法:结构化表示、统计建模、预训练/迁移学习
  • AI选择的方法:监督预测建模(41.4%)

这就像:给你一个复杂的科学问题,AI的默认反应是"让我把它变成一个分类/回归问题"。有时候这能work(因为很多问题确实可以这样做),但这不是真正的科学发现。

6.3 失败原因:不是不懂,是选错了方法

在610次失败运行中:

失败层 占比 主要子类型
方法层 61.1% 错误方法选择(45.1%)
执行层 28.7% 计算预算/时间不足(24.4%)
策略层 7.0% 迭代策略失误
理解层 3.1% 任务误解

最令人惊讶的发现:AI失败不是因为"看不懂任务"(只占3.1%),而是因为:

  1. 选错了方法(45.1%):AI理解了问题,但选择了解决方案太弱
  2. 算力不够(24.4%):方法是对的,但训练/搜索不够深

这说明AI的瓶颈不在"理解",而在**"创造"**——它知道问题是什么,但想不出足够好的解法。


七、复现验证:NatureBench自己也要经得起考验

7.1 复现模式审计

NatureBench在构建过程中做了严格的自验证:

  • 让AI在"知道源论文"的情况下复现方法
  • 如果AI都复现不了,说明任务包有问题

结果

  • Claude Opus 4.6:90个任务中成功复现30个(g ≥ -0.05)
  • DeepSeek-V4-Pro:成功复现21个
  • 两者都成功的16个任务:g中位数-0.0026,90%偏差≤0.031

这说明SOTA锚点是校准良好的——AI在复现模式下能基本达到SOTA,证明任务包本身没问题。

7.2 45个任务被丢弃的原因

在最初的~160个任务中,有45个因"系统性缺陷"被丢弃:

  • 描述与数据不匹配
  • 评估器有bug
  • 跨组件不一致
  • 元数据锚点错误

这说明构建一个可信的科研基准极其困难——即使是NatureBench团队,也需要多轮迭代才能确保质量。


八、对AI for Science的启示:工具的革命 vs 革命的工具

8.1 "研究+AI"范式的结构性局限

当前AI在科研中的主流模式是:

  • 人类科学家提出研究问题和方向
  • AI作为更强大的工具(代码助手、数据分析、文献检索)
  • 人类仍然负责核心决策

NatureBench的实验表明,这种模式有结构性上限:AI可以把人类给定的任务执行得很好,但很难自主提出和解决新的科学问题。

8.2 水平能力缺失

当代AI编码智能体缺乏一种关键能力:跨学科整合

一个真正的科学发现往往需要:

  • 生物表示学习 + 化学搜索 + 物理模拟 + 统计建模

但AI倾向于把所有问题都简化为监督预测——它不会把多个领域的工具组合起来解决复杂问题。

8.3 从复现到发现的鸿沟

NatureBench首次量化证明了这个鸿沟:

  • 复现能力:AI已经很强(Claude能复现30/90个任务)
  • 发现能力:AI还很弱(Claude只超越17.8%的SOTA)

这不是一个渐进式的差距,而是一个质性的差距——复现和发现需要完全不同的能力。


九、费曼式总结:NatureBench告诉了我们什么?

NatureBench的核心贡献不是"AI科研能力很弱"这个结论,而是量化了这个弱到什么程度,以及为什么弱

三个核心数字:

17.8% —— 最强AI在不到1/5的任务上超越人类SOTA。这不是"AI快接管科研了",这是"AI还在学习走路"。

82.7% vs 17.3% —— AI的"成功"主要是工程优化(把问题翻译成监督学习),不是科学发明。真正的科学发现——提出新方法、跨学科整合、突破性洞察——AI几乎做不到。

45.1% vs 3.1% —— AI失败不是因为"不懂任务",而是因为"想不出好方法"。理解问题和解决问题之间,有一道AI目前跨不过去的鸿沟。

类比理解:

想象一个厨师比赛:

  • 复现能力 = 给你菜谱,你能不能做出同样的菜?AI:可以,成功率不错
  • 发现能力 = 给你一些食材,你能不能创造出一道新菜,而且比所有已知菜谱都好吃?AI:目前只能在不到1/5的情况下做到

AI更擅长"执行"而不是"发明"。它可以把给定的方案优化得很好,但很难从零想出一个全新的方案。

未来方向:

NatureBench团队提出的长期目标:把这个基准转化为未来科学发现AI的训练数据。如果AI能在这90个任务上训练、学习、进化,也许有一天它能真正跨过"从复现到发现"的鸿沟。

但那天,还没有到来。


附录:关键信息

项目 数据
初始论文池 ~5,500篇
最终任务数 90个(6个领域)
源期刊 10种Nature子刊
测试智能体 10个配置(3框架 × 10模型)
单次运行总数 900次(90任务 × 10智能体)
最强模型 Claude Opus 4.7(17.8%超越SOTA)
代码与基准 即将开源(关注论文更新)

#NatureBench #AIforScience #基准测试 #Claude #科学发现 #AI智能体 #Nature #机器学习 #科研AI #涌现

讨论回复

加载中...
正在加载回复...

正在加载回复...

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录