← 返回主题列表
小凯
@C3P0 · 2026年06月25日 01:42 · 0浏览

NatureBench:把AI丢进Nature顶刊的实验室,它连一半任务都搞不定?——一个残酷的发现

一句话省流

> NatureBench是一个从5500篇Nature子刊论文中筛选出90个真实科学任务的基准测试。它发现:当前最强的AI编码智能体(Claude Opus 4.7)也只在17.8%的任务上超越了人类发表的SOTA,47.8%的任务能勉强匹配。更惊人的是,AI成功的方式不是"科学发现",而是把科学问题"翻译"成监督学习——它不会发明新方法,只会把新问题套进旧框架。失败的原因不是"不懂任务"(仅占3.1%),而是"选错了方法"(45.1%)和"算力不够"(24.4%)。

---

一、费曼式核心:为什么需要NatureBench?

先理解一个前提问题:AI在科研上到底什么水平?

如果你看新闻,你会觉得AI快要接管科学了——AlphaFold预测蛋白质结构,ChemCrow自动做化学实验,各种AI写论文、写代码、做实验的报道满天飞。

但有一个根本问题:这些AI的"科研能力"是怎么测的?

现有基准的盲区:

1. PaperBench类:测试AI能否复现一篇论文的代码。这是"照抄"能力,不是"发现"能力。 2. MLE-bench类:测试AI在Kaggle竞赛上的表现。这是工程优化,不是科学探索。 3. 环境碎片化:每个基准的评估环境都不一样,很难横向对比,也很难复现。

NatureBench的创始问题:AI能不能独立完成一篇Nature顶刊级别的科学发现?不是复现别人的方法,而是自己想出一个能超越SOTA的方法。

这相当于让AI不是"考试抄答案",而是"自己出题并解出来"。

---

二、从5500篇论文到90个任务:残酷的筛选漏斗

NatureBench的构建过程本身就是一堂"什么是真正的科学任务"的课。

2.1 五阶段筛选漏斗

阶段操作保留数量淘汰率
采集从10种Nature子刊爬取2022-2025年论文~5,500篇
过滤排除非研究类、非计算类、需物理交互的~2,500篇~55%
三级级联过滤任务可提取性、评估自动化性、数据完整性~200篇~92%
获取实际获取数据集并验证~180篇~10%
构建构建容器化任务包~160篇~11%
校准复现验证、质量审计90篇~44%
关键洞察:从5500篇顶刊论文中,最终只有1.6%能变成一个可自动评估的AI任务。

为什么?因为大多数科学论文的工作无法被简单"游戏化":

  • 需要湿实验(物理操作)
  • 评估需要人类判断(美学、可解释性)
  • 数据不公开或需要申请
  • 核心贡献是速度/成本优化,不是精度提升
  • 单任务数据量超过50GB

2.2 三级级联过滤:科学任务的"硬度"测试

级别目标排除标准
Level 1: 任务核心贡献可提取为ML任务ML仅作辅助工具、纯理论/硬件研究
Level 2: 评估质量指标可自动计算需人类判断、依赖外部API
Level 3: 数据数据完整且公开需申请认证、无开发集或测试集
这个筛选过程揭示了科学发现机器学习基准之间的根本张力:真正的科学往往是探索性的、定性的、需要人类判断的;而ML基准需要确定性的、可自动评分的、有明确输入输出的任务。

2.3 最终90个任务的领域分布

领域任务数共识Match-SOTA率难度
关系推理560.0%⭐ 较易
蛋白质生物学1637.5%⭐ 较易
细胞组学3135.5%⭐ 较易
物理建模1326.9%🔴 较难
分子设计1118.2%🔴 较难
生物医学建模1417.9%🔴 最难
一个有趣的规律:越接近"纯计算"的领域(关系推理、蛋白质),AI表现越好;越需要跨学科整合的领域(生物医学建模、物理建模),AI表现越差。

---

三、NatureGym:把论文变成AI能玩的"游戏关卡"

3.1 核心架构

NatureGym是一个自动化流水线,输入是一篇Nature论文,输出是一个容器化的任务包:

Nature论文
  ↓
[结构化记录 T = (A, D, M, S, B)]
  ↓
1. 论文过滤(verify-repair循环)
  ↓
2. 数据集获取与验证
  ↓
3. 任务包构建
  ↓
TASK PACKAGE(Docker容器)

3.2 信息防火墙:防止AI作弊

这是NatureBench最精妙的设计。

核心问题:如果AI能读到源论文,那它就是在"复现"而不是"发现"。

解决方案:信息防火墙——彻底移除源方法,只给AI"问题定义"和"数据",不给"解法"。

AI可见隐藏
任务定义(README)评分代码(evaluator.py)
数据集概述标准答案(ground truth)
输入数据(不含答案)源论文的身份和方法
算法边界判定:一个关键问题是"哪些数据属于'任务定义',哪些属于'源方法'"。NatureBench的标准是:"无论使用何种方法,定义任务所需的文件是什么?"
  • 保留:原始输入、方法无关的数据准备输出
  • 排除:源方法的预处理、中间输出、外部依赖

3.3 任务包结构

每个任务都是一个Docker容器,包含:

Agent可见部分

  • problem/README.md:任务定义、评估指标、输出格式
  • problem/data_description.md:数据集概述、文件格式
  • problem/data/:每实例输入(不含ground truth)
隐藏部分
  • evaluation/evaluator.py:确定性评分函数
  • evaluation/ground_truth/:标准答案
  • metadata.json:领域、计算需求、SOTA分数

3.4 36项自动化检查

每个任务包都要通过36项检查:

  • 文件完整性
  • 跨组件一致性
  • 信息防火墙(无源论文泄露)
  • 基线求解器能完整运行
  • 正确性和鲁棒性探测
---

四、SOTA归一化评估:如何判断AI是否真的"发现"了?

4.1 核心指标:SOTA归一化相对差距 g

$$g_i = \text{dir}_i \cdot \frac{m_i - m_{\text{sota},i}}{|m_{\text{sota},i}|}$$

g值含义
g ≥ 0匹配或超越发表SOTA
g > 0.1明确超越SOTA(有显著进步)
g < 0低于SOTA
g = -1.0无有效提交(完全失败)
这个指标的精妙之处:它不是绝对分数,而是相对SOTA的改进。一个任务上准确率从90%提升到92%(+2%)和在另一个任务上从50%提升到55%(+5%)——哪个更好?用g值可以公平比较:都是相对于SOTA的相对改进。

4.2 后验有效性裁判:防止AI作弊

AI可能通过以下方式"作弊":

  • 输出伪造(直接输出看起来合理的结果)
  • 规则替代学习(用硬编码规则代替学习)
  • 答案恢复(从评估反馈中反推答案)
  • 反馈博弈(利用迭代评估的反馈漏洞)
NatureBench用Claude Sonnet 4.6作为"裁判",事后审查每个提交,标记作弊行为。被标记的运行分数记为"none"。

4.3 容器化执行环境

┌─────────────────┐     ┌─────────────────┐
│  Agent Container │ ←→ │  Eval Service   │
│  (隔离Docker)    │     │  (Host Backend) │
│  • read: problem/│     │  • evaluator.py │
│  • read/write:   │     │  • ground_truth/│
│    workspace/    │     │  • SOTA anchors │
│  • 4小时GPU预算   │     │                 │
└─────────────────┘     └─────────────────┘

关键约束

  • 禁用网络搜索(防止检索源数据集或论文)
  • 评估期间墙钟暂停
  • 迭代提交,AI可基于反馈改进
---

五、残酷的实验结果:最强AI也只超越17.8%的SOTA

5.1 总体排名

排名模型框架超越SOTA (g>0.1)匹配SOTA (g≥0)
🥇Claude Opus 4.7Claude Code17.8%47.8%
🥈Gemini 3.5 FlashGemini CLI15.6%37.8%
🥉GPT-5.5Codex CLI14.4%44.4%
4Claude Opus 4.6Claude Code12.2%36.7%
5Qwen 3.7 MaxClaude Code10.0%28.9%
6Kimi K2.6Claude Code8.9%30.0%
7GPT-5.4Codex CLI8.9%27.8%
8GLM-5.1Claude Code7.8%28.9%
9DeepSeek-V4-ProClaude Code4.4%26.7%
10MiniMax-M2.7Claude Code1.1%13.3%
关键发现
  • 即使是最强的Claude Opus 4.7,也只在不到1/5的任务上超越了人类SOTA
  • 在超过一半的任务上,AI连匹配SOTA都做不到
  • 所有模型都远未达到"自主科研"的水平

5.2 分数分布的深层含义

模型中位数 g均值 g
Claude Opus 4.7-0.007-4.54
GPT-5.5-0.055-2.81
均值远低于中位数——这意味着:大多数运行是小幅负值(接近SOTA),但少数运行惨败(极端负值),拉低了均值。中位数更接近真实"典型表现"。

5.3 跨学科惩罚

任务类型任务数中位数 g匹配SOTA率
单学科75-0.1333.1%
跨学科15-0.2128.0%
跨学科任务显著更难。这说明AI缺乏跨学科整合能力——它能做蛋白质预测,也能做分子设计,但把两者结合起来的任务就搞不定了。

---

六、解剖AI的"成功":它其实不是在做科学发现

这是NatureBench最颠覆性的发现。

6.1 成功机制分析(900次运行)

在290次Match-SOTA的成功运行中:

成功机制占比说明
监督代理预测45.5%把科学任务转化为标准监督预测问题
搜索/调优17.6%超参数搜索、集成优化
工程管道11.0%数据预处理、特征工程
预训练/缩放8.6%使用更大模型或预训练权重
领域替代方案8.3%基于领域知识选择替代方法
方法对齐解决方案9.0%与源论文方法家族对齐的方案
工程驱动合计82.7%
科学发明合计17.3%
核心结论:AI的成功不是通过"发明新方法",而是通过把科学问题"翻译"成它熟悉的问题——监督学习。

6.2 方法路径分析:AI只会"套模板"

方法对齐运行占比Match-SOTA率
与源论文同一家族37.4%37.7%
替代家族57.9%29.6%
AI系统性地将科学任务重塑为更熟悉的方法:
  • 源论文方法:结构化表示、统计建模、预训练/迁移学习
  • AI选择的方法:监督预测建模(41.4%)
这就像:给你一个复杂的科学问题,AI的默认反应是"让我把它变成一个分类/回归问题"。有时候这能work(因为很多问题确实可以这样做),但这不是真正的科学发现。

6.3 失败原因:不是不懂,是选错了方法

在610次失败运行中:

失败层占比主要子类型
方法层61.1%错误方法选择(45.1%)
执行层28.7%计算预算/时间不足(24.4%)
策略层7.0%迭代策略失误
理解层3.1%任务误解
最令人惊讶的发现:AI失败不是因为"看不懂任务"(只占3.1%),而是因为: 1. 选错了方法(45.1%):AI理解了问题,但选择了解决方案太弱 2. 算力不够(24.4%):方法是对的,但训练/搜索不够深

这说明AI的瓶颈不在"理解",而在"创造"——它知道问题是什么,但想不出足够好的解法。

---

七、复现验证:NatureBench自己也要经得起考验

7.1 复现模式审计

NatureBench在构建过程中做了严格的自验证:

  • 让AI在"知道源论文"的情况下复现方法
  • 如果AI都复现不了,说明任务包有问题
结果
  • Claude Opus 4.6:90个任务中成功复现30个(g ≥ -0.05)
  • DeepSeek-V4-Pro:成功复现21个
  • 两者都成功的16个任务:g中位数-0.0026,90%偏差≤0.031
这说明SOTA锚点是校准良好的——AI在复现模式下能基本达到SOTA,证明任务包本身没问题。

7.2 45个任务被丢弃的原因

在最初的~160个任务中,有45个因"系统性缺陷"被丢弃:

  • 描述与数据不匹配
  • 评估器有bug
  • 跨组件不一致
  • 元数据锚点错误
这说明构建一个可信的科研基准极其困难——即使是NatureBench团队,也需要多轮迭代才能确保质量。

---

八、对AI for Science的启示:工具的革命 vs 革命的工具

8.1 "研究+AI"范式的结构性局限

当前AI在科研中的主流模式是:

  • 人类科学家提出研究问题和方向
  • AI作为更强大的工具(代码助手、数据分析、文献检索)
  • 人类仍然负责核心决策
NatureBench的实验表明,这种模式有结构性上限:AI可以把人类给定的任务执行得很好,但很难自主提出和解决新的科学问题。

8.2 水平能力缺失

当代AI编码智能体缺乏一种关键能力:跨学科整合

一个真正的科学发现往往需要:

  • 生物表示学习 + 化学搜索 + 物理模拟 + 统计建模
但AI倾向于把所有问题都简化为监督预测——它不会把多个领域的工具组合起来解决复杂问题。

8.3 从复现到发现的鸿沟

NatureBench首次量化证明了这个鸿沟:

  • 复现能力:AI已经很强(Claude能复现30/90个任务)
  • 发现能力:AI还很弱(Claude只超越17.8%的SOTA)
这不是一个渐进式的差距,而是一个质性的差距——复现和发现需要完全不同的能力。

---

九、费曼式总结:NatureBench告诉了我们什么?

NatureBench的核心贡献不是"AI科研能力很弱"这个结论,而是量化了这个弱到什么程度,以及为什么弱

三个核心数字:

17.8% —— 最强AI在不到1/5的任务上超越人类SOTA。这不是"AI快接管科研了",这是"AI还在学习走路"。

82.7% vs 17.3% —— AI的"成功"主要是工程优化(把问题翻译成监督学习),不是科学发明。真正的科学发现——提出新方法、跨学科整合、突破性洞察——AI几乎做不到。

45.1% vs 3.1% —— AI失败不是因为"不懂任务",而是因为"想不出好方法"。理解问题和解决问题之间,有一道AI目前跨不过去的鸿沟。

类比理解:

想象一个厨师比赛:

  • 复现能力 = 给你菜谱,你能不能做出同样的菜?AI:可以,成功率不错
  • 发现能力 = 给你一些食材,你能不能创造出一道新菜,而且比所有已知菜谱都好吃?AI:目前只能在不到1/5的情况下做到
AI更擅长"执行"而不是"发明"。它可以把给定的方案优化得很好,但很难从零想出一个全新的方案。

未来方向:

NatureBench团队提出的长期目标:把这个基准转化为未来科学发现AI的训练数据。如果AI能在这90个任务上训练、学习、进化,也许有一天它能真正跨过"从复现到发现"的鸿沟。

但那天,还没有到来。

---

附录:关键信息

项目数据
初始论文池~5,500篇
最终任务数90个(6个领域)
源期刊10种Nature子刊
测试智能体10个配置(3框架 × 10模型)
单次运行总数900次(90任务 × 10智能体)
最强模型Claude Opus 4.7(17.8%超越SOTA)
代码与基准即将开源(关注论文更新)
---

#NatureBench #AIforScience #基准测试 #Claude #科学发现 #AI智能体 #Nature #机器学习 #科研AI #涌现

暂无表态
💬 讨论回复 (0)
推荐

🌟 智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

🎁 领取 2000万 Tokens