一句话省流

> NatureBench是一个从5500篇Nature子刊论文中筛选出90个真实科学任务的基准测试。它发现：当前最强的AI编码智能体（Claude Opus 4.7）也只在17.8%的任务上超越了人类发表的SOTA，47.8%的任务能勉强匹配。更惊人的是，AI成功的方式不是"科学发现"，而是把科学问题"翻译"成监督学习——它不会发明新方法，只会把新问题套进旧框架。失败的原因不是"不懂任务"（仅占3.1%），而是"选错了方法"（45.1%）和"算力不够"（24.4%）。

---

一、费曼式核心：为什么需要NatureBench？

先理解一个前提问题：AI在科研上到底什么水平？

如果你看新闻，你会觉得AI快要接管科学了——AlphaFold预测蛋白质结构，ChemCrow自动做化学实验，各种AI写论文、写代码、做实验的报道满天飞。

但有一个根本问题：这些AI的"科研能力"是怎么测的？

现有基准的盲区：

1. PaperBench类：测试AI能否复现一篇论文的代码。这是"照抄"能力，不是"发现"能力。 2. MLE-bench类：测试AI在Kaggle竞赛上的表现。这是工程优化，不是科学探索。 3. 环境碎片化：每个基准的评估环境都不一样，很难横向对比，也很难复现。

NatureBench的创始问题：AI能不能独立完成一篇Nature顶刊级别的科学发现？不是复现别人的方法，而是自己想出一个能超越SOTA的方法。

这相当于让AI不是"考试抄答案"，而是"自己出题并解出来"。

---

二、从5500篇论文到90个任务：残酷的筛选漏斗

NatureBench的构建过程本身就是一堂"什么是真正的科学任务"的课。

2.1 五阶段筛选漏斗

阶段	操作	保留数量	淘汰率
采集	从10种Nature子刊爬取2022-2025年论文	~5,500篇	—
过滤	排除非研究类、非计算类、需物理交互的	~2,500篇	~55%
三级级联过滤	任务可提取性、评估自动化性、数据完整性	~200篇	~92%
获取	实际获取数据集并验证	~180篇	~10%
构建	构建容器化任务包	~160篇	~11%
校准	复现验证、质量审计	90篇	~44%

关键洞察：从5500篇顶刊论文中，最终只有1.6%能变成一个可自动评估的AI任务。

为什么？因为大多数科学论文的工作无法被简单"游戏化"：

需要湿实验（物理操作）
评估需要人类判断（美学、可解释性）
数据不公开或需要申请
核心贡献是速度/成本优化，不是精度提升
单任务数据量超过50GB

2.2 三级级联过滤：科学任务的"硬度"测试

级别	目标	排除标准
Level 1: 任务	核心贡献可提取为ML任务	ML仅作辅助工具、纯理论/硬件研究
Level 2: 评估	质量指标可自动计算	需人类判断、依赖外部API
Level 3: 数据	数据完整且公开	需申请认证、无开发集或测试集

这个筛选过程揭示了科学发现和机器学习基准之间的根本张力：真正的科学往往是探索性的、定性的、需要人类判断的；而ML基准需要确定性的、可自动评分的、有明确输入输出的任务。

2.3 最终90个任务的领域分布

领域	任务数	共识Match-SOTA率	难度
关系推理	5	60.0%	⭐ 较易
蛋白质生物学	16	37.5%	⭐ 较易
细胞组学	31	35.5%	⭐ 较易
物理建模	13	26.9%	🔴 较难
分子设计	11	18.2%	🔴 较难
生物医学建模	14	17.9%	🔴 最难

一个有趣的规律：越接近"纯计算"的领域（关系推理、蛋白质），AI表现越好；越需要跨学科整合的领域（生物医学建模、物理建模），AI表现越差。

---

三、NatureGym：把论文变成AI能玩的"游戏关卡"

3.1 核心架构

NatureGym是一个自动化流水线，输入是一篇Nature论文，输出是一个容器化的任务包：

Nature论文
  ↓
[结构化记录 T = (A, D, M, S, B)]
  ↓
1. 论文过滤（verify-repair循环）
  ↓
2. 数据集获取与验证
  ↓
3. 任务包构建
  ↓
TASK PACKAGE（Docker容器）

3.2 信息防火墙：防止AI作弊

这是NatureBench最精妙的设计。

核心问题：如果AI能读到源论文，那它就是在"复现"而不是"发现"。

解决方案：信息防火墙——彻底移除源方法，只给AI"问题定义"和"数据"，不给"解法"。

AI可见	隐藏
任务定义（README）	评分代码（evaluator.py）
数据集概述	标准答案（ground truth）
输入数据（不含答案）	源论文的身份和方法

算法边界判定：一个关键问题是"哪些数据属于'任务定义'，哪些属于'源方法'"。NatureBench的标准是："无论使用何种方法，定义任务所需的文件是什么？"

保留：原始输入、方法无关的数据准备输出
排除：源方法的预处理、中间输出、外部依赖

3.3 任务包结构

每个任务都是一个Docker容器，包含：

Agent可见部分：

problem/README.md：任务定义、评估指标、输出格式
problem/data_description.md：数据集概述、文件格式
problem/data/：每实例输入（不含ground truth）

隐藏部分：

evaluation/evaluator.py：确定性评分函数
evaluation/ground_truth/：标准答案
metadata.json：领域、计算需求、SOTA分数

3.4 36项自动化检查

每个任务包都要通过36项检查：

文件完整性
跨组件一致性
信息防火墙（无源论文泄露）
基线求解器能完整运行
正确性和鲁棒性探测

---

四、SOTA归一化评估：如何判断AI是否真的"发现"了？

4.1 核心指标：SOTA归一化相对差距 g

$$g_i = \text{dir}_i \cdot \frac{m_i - m_{\text{sota},i}}{|m_{\text{sota},i}|}$$

g值	含义
g ≥ 0	匹配或超越发表SOTA
g > 0.1	明确超越SOTA（有显著进步）
g < 0	低于SOTA
g = -1.0	无有效提交（完全失败）

这个指标的精妙之处：它不是绝对分数，而是相对SOTA的改进。一个任务上准确率从90%提升到92%（+2%）和在另一个任务上从50%提升到55%（+5%）——哪个更好？用g值可以公平比较：都是相对于SOTA的相对改进。

4.2 后验有效性裁判：防止AI作弊

AI可能通过以下方式"作弊"：

输出伪造（直接输出看起来合理的结果）
规则替代学习（用硬编码规则代替学习）
答案恢复（从评估反馈中反推答案）
反馈博弈（利用迭代评估的反馈漏洞）

NatureBench用Claude Sonnet 4.6作为"裁判"，事后审查每个提交，标记作弊行为。被标记的运行分数记为"none"。

4.3 容器化执行环境

┌─────────────────┐     ┌─────────────────┐
│  Agent Container │ ←→ │  Eval Service   │
│  (隔离Docker)    │     │  (Host Backend) │
│  • read: problem/│     │  • evaluator.py │
│  • read/write:   │     │  • ground_truth/│
│    workspace/    │     │  • SOTA anchors │
│  • 4小时GPU预算   │     │                 │
└─────────────────┘     └─────────────────┘

关键约束：

禁用网络搜索（防止检索源数据集或论文）
评估期间墙钟暂停
迭代提交，AI可基于反馈改进

---

五、残酷的实验结果：最强AI也只超越17.8%的SOTA

5.1 总体排名

排名	模型	框架	超越SOTA (g>0.1)	匹配SOTA (g≥0)
🥇	Claude Opus 4.7	Claude Code	17.8%	47.8%
🥈	Gemini 3.5 Flash	Gemini CLI	15.6%	37.8%
🥉	GPT-5.5	Codex CLI	14.4%	44.4%
4	Claude Opus 4.6	Claude Code	12.2%	36.7%
5	Qwen 3.7 Max	Claude Code	10.0%	28.9%
6	Kimi K2.6	Claude Code	8.9%	30.0%
7	GPT-5.4	Codex CLI	8.9%	27.8%
8	GLM-5.1	Claude Code	7.8%	28.9%
9	DeepSeek-V4-Pro	Claude Code	4.4%	26.7%
10	MiniMax-M2.7	Claude Code	1.1%	13.3%

关键发现：

即使是最强的Claude Opus 4.7，也只在不到1/5的任务上超越了人类SOTA
在超过一半的任务上，AI连匹配SOTA都做不到
所有模型都远未达到"自主科研"的水平

5.2 分数分布的深层含义

模型	中位数 g	均值 g
Claude Opus 4.7	-0.007	-4.54
GPT-5.5	-0.055	-2.81

均值远低于中位数——这意味着：大多数运行是小幅负值（接近SOTA），但少数运行惨败（极端负值），拉低了均值。中位数更接近真实"典型表现"。

5.3 跨学科惩罚

任务类型	任务数	中位数 g	匹配SOTA率
单学科	75	-0.13	33.1%
跨学科	15	-0.21	28.0%

跨学科任务显著更难。这说明AI缺乏跨学科整合能力——它能做蛋白质预测，也能做分子设计，但把两者结合起来的任务就搞不定了。

---

六、解剖AI的"成功"：它其实不是在做科学发现

这是NatureBench最颠覆性的发现。

6.1 成功机制分析（900次运行）

在290次Match-SOTA的成功运行中：

成功机制	占比	说明
监督代理预测	45.5%	把科学任务转化为标准监督预测问题
搜索/调优	17.6%	超参数搜索、集成优化
工程管道	11.0%	数据预处理、特征工程
预训练/缩放	8.6%	使用更大模型或预训练权重
领域替代方案	8.3%	基于领域知识选择替代方法
方法对齐解决方案	9.0%	与源论文方法家族对齐的方案
工程驱动合计	82.7%
科学发明合计	17.3%

核心结论：AI的成功不是通过"发明新方法"，而是通过把科学问题"翻译"成它熟悉的问题——监督学习。

6.2 方法路径分析：AI只会"套模板"

方法对齐	运行占比	Match-SOTA率
与源论文同一家族	37.4%	37.7%
替代家族	57.9%	29.6%

AI系统性地将科学任务重塑为更熟悉的方法：

源论文方法：结构化表示、统计建模、预训练/迁移学习
AI选择的方法：监督预测建模（41.4%）

这就像：给你一个复杂的科学问题，AI的默认反应是"让我把它变成一个分类/回归问题"。有时候这能work（因为很多问题确实可以这样做），但这不是真正的科学发现。

6.3 失败原因：不是不懂，是选错了方法

在610次失败运行中：

失败层	占比	主要子类型
方法层	61.1%	错误方法选择（45.1%）
执行层	28.7%	计算预算/时间不足（24.4%）
策略层	7.0%	迭代策略失误
理解层	3.1%	任务误解

最令人惊讶的发现：AI失败不是因为"看不懂任务"（只占3.1%），而是因为： 1. 选错了方法（45.1%）：AI理解了问题，但选择了解决方案太弱 2. 算力不够（24.4%）：方法是对的，但训练/搜索不够深

这说明AI的瓶颈不在"理解"，而在"创造"——它知道问题是什么，但想不出足够好的解法。

---

七、复现验证：NatureBench自己也要经得起考验

7.1 复现模式审计

NatureBench在构建过程中做了严格的自验证：

让AI在"知道源论文"的情况下复现方法
如果AI都复现不了，说明任务包有问题

结果：

Claude Opus 4.6：90个任务中成功复现30个（g ≥ -0.05）
DeepSeek-V4-Pro：成功复现21个
两者都成功的16个任务：g中位数-0.0026，90%偏差≤0.031

这说明SOTA锚点是校准良好的——AI在复现模式下能基本达到SOTA，证明任务包本身没问题。

7.2 45个任务被丢弃的原因

在最初的~160个任务中，有45个因"系统性缺陷"被丢弃：

描述与数据不匹配
评估器有bug
跨组件不一致
元数据锚点错误

这说明构建一个可信的科研基准极其困难——即使是NatureBench团队，也需要多轮迭代才能确保质量。

---

八、对AI for Science的启示：工具的革命 vs 革命的工具

8.1 "研究+AI"范式的结构性局限

当前AI在科研中的主流模式是：

人类科学家提出研究问题和方向
AI作为更强大的工具（代码助手、数据分析、文献检索）
人类仍然负责核心决策

NatureBench的实验表明，这种模式有结构性上限：AI可以把人类给定的任务执行得很好，但很难自主提出和解决新的科学问题。

8.2 水平能力缺失

当代AI编码智能体缺乏一种关键能力：跨学科整合。

一个真正的科学发现往往需要：

生物表示学习 + 化学搜索 + 物理模拟 + 统计建模

但AI倾向于把所有问题都简化为监督预测——它不会把多个领域的工具组合起来解决复杂问题。

8.3 从复现到发现的鸿沟

NatureBench首次量化证明了这个鸿沟：

复现能力：AI已经很强（Claude能复现30/90个任务）
发现能力：AI还很弱（Claude只超越17.8%的SOTA）

这不是一个渐进式的差距，而是一个质性的差距——复现和发现需要完全不同的能力。

---

九、费曼式总结：NatureBench告诉了我们什么？

NatureBench的核心贡献不是"AI科研能力很弱"这个结论，而是量化了这个弱到什么程度，以及为什么弱。

三个核心数字：

17.8% —— 最强AI在不到1/5的任务上超越人类SOTA。这不是"AI快接管科研了"，这是"AI还在学习走路"。

82.7% vs 17.3% —— AI的"成功"主要是工程优化（把问题翻译成监督学习），不是科学发明。真正的科学发现——提出新方法、跨学科整合、突破性洞察——AI几乎做不到。

45.1% vs 3.1% —— AI失败不是因为"不懂任务"，而是因为"想不出好方法"。理解问题和解决问题之间，有一道AI目前跨不过去的鸿沟。

类比理解：

想象一个厨师比赛：

复现能力 = 给你菜谱，你能不能做出同样的菜？AI：可以，成功率不错
发现能力 = 给你一些食材，你能不能创造出一道新菜，而且比所有已知菜谱都好吃？AI：目前只能在不到1/5的情况下做到

AI更擅长"执行"而不是"发明"。它可以把给定的方案优化得很好，但很难从零想出一个全新的方案。

未来方向：

NatureBench团队提出的长期目标：把这个基准转化为未来科学发现AI的训练数据。如果AI能在这90个任务上训练、学习、进化，也许有一天它能真正跨过"从复现到发现"的鸿沟。

但那天，还没有到来。

---

附录：关键信息

项目	数据
初始论文池	~5,500篇
最终任务数	90个（6个领域）
源期刊	10种Nature子刊
测试智能体	10个配置（3框架 × 10模型）
单次运行总数	900次（90任务 × 10智能体）
最强模型	Claude Opus 4.7（17.8%超越SOTA）
代码与基准	即将开源（关注论文更新）

---

#NatureBench #AIforScience #基准测试 #Claude #科学发现 #AI智能体 #Nature #机器学习 #科研AI #涌现