NatureBench:把AI丢进Nature顶刊的实验室,它连一半任务都搞不定?——一个残酷的发现
一句话省流
> NatureBench是一个从5500篇Nature子刊论文中筛选出90个真实科学任务的基准测试。它发现:当前最强的AI编码智能体(Claude Opus 4.7)也只在17.8%的任务上超越了人类发表的SOTA,47.8%的任务能勉强匹配。更惊人的是,AI成功的方式不是"科学发现",而是把科学问题"翻译"成监督学习——它不会发明新方法,只会把新问题套进旧框架。失败的原因不是"不懂任务"(仅占3.1%),而是"选错了方法"(45.1%)和"算力不够"(24.4%)。
---
一、费曼式核心:为什么需要NatureBench?
先理解一个前提问题:AI在科研上到底什么水平?
如果你看新闻,你会觉得AI快要接管科学了——AlphaFold预测蛋白质结构,ChemCrow自动做化学实验,各种AI写论文、写代码、做实验的报道满天飞。
但有一个根本问题:这些AI的"科研能力"是怎么测的?
现有基准的盲区:
1. PaperBench类:测试AI能否复现一篇论文的代码。这是"照抄"能力,不是"发现"能力。 2. MLE-bench类:测试AI在Kaggle竞赛上的表现。这是工程优化,不是科学探索。 3. 环境碎片化:每个基准的评估环境都不一样,很难横向对比,也很难复现。
NatureBench的创始问题:AI能不能独立完成一篇Nature顶刊级别的科学发现?不是复现别人的方法,而是自己想出一个能超越SOTA的方法。
这相当于让AI不是"考试抄答案",而是"自己出题并解出来"。
---
二、从5500篇论文到90个任务:残酷的筛选漏斗
NatureBench的构建过程本身就是一堂"什么是真正的科学任务"的课。
2.1 五阶段筛选漏斗
| 阶段 | 操作 | 保留数量 | 淘汰率 |
|---|---|---|---|
| 采集 | 从10种Nature子刊爬取2022-2025年论文 | ~5,500篇 | — |
| 过滤 | 排除非研究类、非计算类、需物理交互的 | ~2,500篇 | ~55% |
| 三级级联过滤 | 任务可提取性、评估自动化性、数据完整性 | ~200篇 | ~92% |
| 获取 | 实际获取数据集并验证 | ~180篇 | ~10% |
| 构建 | 构建容器化任务包 | ~160篇 | ~11% |
| 校准 | 复现验证、质量审计 | 90篇 | ~44% |
为什么?因为大多数科学论文的工作无法被简单"游戏化":
- 需要湿实验(物理操作)
- 评估需要人类判断(美学、可解释性)
- 数据不公开或需要申请
- 核心贡献是速度/成本优化,不是精度提升
- 单任务数据量超过50GB
2.2 三级级联过滤:科学任务的"硬度"测试
| 级别 | 目标 | 排除标准 |
|---|---|---|
| Level 1: 任务 | 核心贡献可提取为ML任务 | ML仅作辅助工具、纯理论/硬件研究 |
| Level 2: 评估 | 质量指标可自动计算 | 需人类判断、依赖外部API |
| Level 3: 数据 | 数据完整且公开 | 需申请认证、无开发集或测试集 |
2.3 最终90个任务的领域分布
| 领域 | 任务数 | 共识Match-SOTA率 | 难度 |
|---|---|---|---|
| 关系推理 | 5 | 60.0% | ⭐ 较易 |
| 蛋白质生物学 | 16 | 37.5% | ⭐ 较易 |
| 细胞组学 | 31 | 35.5% | ⭐ 较易 |
| 物理建模 | 13 | 26.9% | 🔴 较难 |
| 分子设计 | 11 | 18.2% | 🔴 较难 |
| 生物医学建模 | 14 | 17.9% | 🔴 最难 |
---
三、NatureGym:把论文变成AI能玩的"游戏关卡"
3.1 核心架构
NatureGym是一个自动化流水线,输入是一篇Nature论文,输出是一个容器化的任务包:
Nature论文
↓
[结构化记录 T = (A, D, M, S, B)]
↓
1. 论文过滤(verify-repair循环)
↓
2. 数据集获取与验证
↓
3. 任务包构建
↓
TASK PACKAGE(Docker容器)
3.2 信息防火墙:防止AI作弊
这是NatureBench最精妙的设计。
核心问题:如果AI能读到源论文,那它就是在"复现"而不是"发现"。
解决方案:信息防火墙——彻底移除源方法,只给AI"问题定义"和"数据",不给"解法"。
| AI可见 | 隐藏 |
|---|---|
| 任务定义(README) | 评分代码(evaluator.py) |
| 数据集概述 | 标准答案(ground truth) |
| 输入数据(不含答案) | 源论文的身份和方法 |
- 保留:原始输入、方法无关的数据准备输出
- 排除:源方法的预处理、中间输出、外部依赖
3.3 任务包结构
每个任务都是一个Docker容器,包含:
Agent可见部分:
problem/README.md:任务定义、评估指标、输出格式problem/data_description.md:数据集概述、文件格式problem/data/:每实例输入(不含ground truth)
evaluation/evaluator.py:确定性评分函数evaluation/ground_truth/:标准答案metadata.json:领域、计算需求、SOTA分数
3.4 36项自动化检查
每个任务包都要通过36项检查:
- 文件完整性
- 跨组件一致性
- 信息防火墙(无源论文泄露)
- 基线求解器能完整运行
- 正确性和鲁棒性探测
四、SOTA归一化评估:如何判断AI是否真的"发现"了?
4.1 核心指标:SOTA归一化相对差距 g
$$g_i = \text{dir}_i \cdot \frac{m_i - m_{\text{sota},i}}{|m_{\text{sota},i}|}$$
| g值 | 含义 |
|---|---|
| g ≥ 0 | 匹配或超越发表SOTA |
| g > 0.1 | 明确超越SOTA(有显著进步) |
| g < 0 | 低于SOTA |
| g = -1.0 | 无有效提交(完全失败) |
4.2 后验有效性裁判:防止AI作弊
AI可能通过以下方式"作弊":
- 输出伪造(直接输出看起来合理的结果)
- 规则替代学习(用硬编码规则代替学习)
- 答案恢复(从评估反馈中反推答案)
- 反馈博弈(利用迭代评估的反馈漏洞)
4.3 容器化执行环境
┌─────────────────┐ ┌─────────────────┐
│ Agent Container │ ←→ │ Eval Service │
│ (隔离Docker) │ │ (Host Backend) │
│ • read: problem/│ │ • evaluator.py │
│ • read/write: │ │ • ground_truth/│
│ workspace/ │ │ • SOTA anchors │
│ • 4小时GPU预算 │ │ │
└─────────────────┘ └─────────────────┘
关键约束:
- 禁用网络搜索(防止检索源数据集或论文)
- 评估期间墙钟暂停
- 迭代提交,AI可基于反馈改进
五、残酷的实验结果:最强AI也只超越17.8%的SOTA
5.1 总体排名
| 排名 | 模型 | 框架 | 超越SOTA (g>0.1) | 匹配SOTA (g≥0) |
|---|---|---|---|---|
| 🥇 | Claude Opus 4.7 | Claude Code | 17.8% | 47.8% |
| 🥈 | Gemini 3.5 Flash | Gemini CLI | 15.6% | 37.8% |
| 🥉 | GPT-5.5 | Codex CLI | 14.4% | 44.4% |
| 4 | Claude Opus 4.6 | Claude Code | 12.2% | 36.7% |
| 5 | Qwen 3.7 Max | Claude Code | 10.0% | 28.9% |
| 6 | Kimi K2.6 | Claude Code | 8.9% | 30.0% |
| 7 | GPT-5.4 | Codex CLI | 8.9% | 27.8% |
| 8 | GLM-5.1 | Claude Code | 7.8% | 28.9% |
| 9 | DeepSeek-V4-Pro | Claude Code | 4.4% | 26.7% |
| 10 | MiniMax-M2.7 | Claude Code | 1.1% | 13.3% |
- 即使是最强的Claude Opus 4.7,也只在不到1/5的任务上超越了人类SOTA
- 在超过一半的任务上,AI连匹配SOTA都做不到
- 所有模型都远未达到"自主科研"的水平
5.2 分数分布的深层含义
| 模型 | 中位数 g | 均值 g |
|---|---|---|
| Claude Opus 4.7 | -0.007 | -4.54 |
| GPT-5.5 | -0.055 | -2.81 |
5.3 跨学科惩罚
| 任务类型 | 任务数 | 中位数 g | 匹配SOTA率 |
|---|---|---|---|
| 单学科 | 75 | -0.13 | 33.1% |
| 跨学科 | 15 | -0.21 | 28.0% |
---
六、解剖AI的"成功":它其实不是在做科学发现
这是NatureBench最颠覆性的发现。
6.1 成功机制分析(900次运行)
在290次Match-SOTA的成功运行中:
| 成功机制 | 占比 | 说明 |
|---|---|---|
| 监督代理预测 | 45.5% | 把科学任务转化为标准监督预测问题 |
| 搜索/调优 | 17.6% | 超参数搜索、集成优化 |
| 工程管道 | 11.0% | 数据预处理、特征工程 |
| 预训练/缩放 | 8.6% | 使用更大模型或预训练权重 |
| 领域替代方案 | 8.3% | 基于领域知识选择替代方法 |
| 方法对齐解决方案 | 9.0% | 与源论文方法家族对齐的方案 |
| 工程驱动合计 | 82.7% | |
| 科学发明合计 | 17.3% |
6.2 方法路径分析:AI只会"套模板"
| 方法对齐 | 运行占比 | Match-SOTA率 |
|---|---|---|
| 与源论文同一家族 | 37.4% | 37.7% |
| 替代家族 | 57.9% | 29.6% |
- 源论文方法:结构化表示、统计建模、预训练/迁移学习
- AI选择的方法:监督预测建模(41.4%)
6.3 失败原因:不是不懂,是选错了方法
在610次失败运行中:
| 失败层 | 占比 | 主要子类型 |
|---|---|---|
| 方法层 | 61.1% | 错误方法选择(45.1%) |
| 执行层 | 28.7% | 计算预算/时间不足(24.4%) |
| 策略层 | 7.0% | 迭代策略失误 |
| 理解层 | 3.1% | 任务误解 |
这说明AI的瓶颈不在"理解",而在"创造"——它知道问题是什么,但想不出足够好的解法。
---
七、复现验证:NatureBench自己也要经得起考验
7.1 复现模式审计
NatureBench在构建过程中做了严格的自验证:
- 让AI在"知道源论文"的情况下复现方法
- 如果AI都复现不了,说明任务包有问题
- Claude Opus 4.6:90个任务中成功复现30个(g ≥ -0.05)
- DeepSeek-V4-Pro:成功复现21个
- 两者都成功的16个任务:g中位数-0.0026,90%偏差≤0.031
7.2 45个任务被丢弃的原因
在最初的~160个任务中,有45个因"系统性缺陷"被丢弃:
- 描述与数据不匹配
- 评估器有bug
- 跨组件不一致
- 元数据锚点错误
---
八、对AI for Science的启示:工具的革命 vs 革命的工具
8.1 "研究+AI"范式的结构性局限
当前AI在科研中的主流模式是:
- 人类科学家提出研究问题和方向
- AI作为更强大的工具(代码助手、数据分析、文献检索)
- 人类仍然负责核心决策
8.2 水平能力缺失
当代AI编码智能体缺乏一种关键能力:跨学科整合。
一个真正的科学发现往往需要:
- 生物表示学习 + 化学搜索 + 物理模拟 + 统计建模
8.3 从复现到发现的鸿沟
NatureBench首次量化证明了这个鸿沟:
- 复现能力:AI已经很强(Claude能复现30/90个任务)
- 发现能力:AI还很弱(Claude只超越17.8%的SOTA)
---
九、费曼式总结:NatureBench告诉了我们什么?
NatureBench的核心贡献不是"AI科研能力很弱"这个结论,而是量化了这个弱到什么程度,以及为什么弱。
三个核心数字:
17.8% —— 最强AI在不到1/5的任务上超越人类SOTA。这不是"AI快接管科研了",这是"AI还在学习走路"。
82.7% vs 17.3% —— AI的"成功"主要是工程优化(把问题翻译成监督学习),不是科学发明。真正的科学发现——提出新方法、跨学科整合、突破性洞察——AI几乎做不到。
45.1% vs 3.1% —— AI失败不是因为"不懂任务",而是因为"想不出好方法"。理解问题和解决问题之间,有一道AI目前跨不过去的鸿沟。
类比理解:
想象一个厨师比赛:
- 复现能力 = 给你菜谱,你能不能做出同样的菜?AI:可以,成功率不错
- 发现能力 = 给你一些食材,你能不能创造出一道新菜,而且比所有已知菜谱都好吃?AI:目前只能在不到1/5的情况下做到
未来方向:
NatureBench团队提出的长期目标:把这个基准转化为未来科学发现AI的训练数据。如果AI能在这90个任务上训练、学习、进化,也许有一天它能真正跨过"从复现到发现"的鸿沟。
但那天,还没有到来。
---
附录:关键信息
| 项目 | 数据 |
|---|---|
| 初始论文池 | ~5,500篇 |
| 最终任务数 | 90个(6个领域) |
| 源期刊 | 10种Nature子刊 |
| 测试智能体 | 10个配置(3框架 × 10模型) |
| 单次运行总数 | 900次(90任务 × 10智能体) |
| 最强模型 | Claude Opus 4.7(17.8%超越SOTA) |
| 代码与基准 | 即将开源(关注论文更新) |
#NatureBench #AIforScience #基准测试 #Claude #科学发现 #AI智能体 #Nature #机器学习 #科研AI #涌现
🌟 智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
🎁 领取 2000万 Tokens