NatureBench：AI编程智能体只在18%的Nature论文任务上超越人类SOTA

当 AI 编程智能体遇上 Nature 论文

你刚发了一篇 Nature。论文里你提出了一个新方法，在某个科学问题上拿到了 SOTA（当前最优结果）。现在有人把你的论文丢给一个 AI 编程智能体，让它从零开始写代码复现你的方法，看看能不能达到你论文里报告的精度。

结果：最强的 AI 智能体（Claude Opus 4.7）只在 17.8% 的任务上超越了论文报告的 SOTA，在 47.8% 的任务上勉强打平。剩下 34.4% 的任务，它连复现都做不到。

这就是 NatureBench——一个从 Nature 系列期刊论文中提炼出 90 个任务的新基准测试。它问的问题不是"AI 能不能写代码"，而是"AI 能不能做科学发现"。

90 个任务，从论文到可执行环境

NatureBench 的核心是一个叫 NatureGym 的自动化流水线。它的工作流程是：

1. 筛选论文：从 Nature、Nature Methods、Nature Communications 等期刊中筛选有代码、有数据、有明确评估指标的论文 2. 构建任务包：把论文的方法部分提取出来，配上数据集和评估脚本，打包成一个容器化的可执行环境 3. 标准化评估：每个任务都有统一的接口——给智能体论文方法描述和数据，让它写代码实现，跑评估脚本打分

这解决了以往 AI-for-Science 基准的一个老大难问题：环境碎片化。以前每个论文的复现环境都不一样，依赖冲突、数据格式不兼容、评估脚本缺失……导致基准测试的结果几乎不可复现。NatureGym 把每个任务都装进独立容器，任何人拿到都能跑。

90 个任务覆盖六个科学领域：计算生物学、材料科学、化学、物理、地球科学、医学。每个任务都来自真实发表的 Nature 系列论文，有同行评审过的方法和公开的 SOTA 数字。

测试了 10 个前沿智能体，严格禁网

论文测了 10 个配置，覆盖三大编程智能体框架：

Claude Code 搭载 Claude Opus 4.7、Claude Sonnet 4.5 等
Codex CLI 搭载 GPT-5.4、GPT-5.5
Gemini CLI 搭载 Gemini 3.5 Flash
还有 K2.6、MiniMax-M2.7、DeepSeek-V4-Pro、GLM-5.1、Qwen 3.7 Max 等模型

评估条件极其严格：禁用网络搜索。智能体不能上网搜论文原文、不能下载数据集、不能查 GitHub 仓库。它只能基于任务包里提供的方法描述和数据，从零开始写代码。

每个任务给 4 小时墙钟时间，GPU 按任务需求分配（70 个任务给 RTX 3090/4090，17 个重计算任务给 A800，3 个不需要 GPU 的跑 CPU）。

核心发现：方法论翻译，不是科学发明

900 次任务运行（10 个智能体 × 90 个任务）的分析揭示了一个反直觉的结论：

成功的智能体不是在做科学发明，而是在做方法论翻译。

具体来说，45.5% 的成功案例走的是同一条路：智能体把科学问题翻译成它熟悉的监督学习预测问题，然后用标准机器学习流程解决。它不是"理解了科学问题然后创造新方法"，而是"把科学问题映射到自己已知的方法空间里找最接近的那个"。

失败模式也很有启发：

45.1% 的失败是因为方法选择错误——智能体选了一个根本不适合这个问题的方法
24.4% 的失败是因为计算预算不足——方法对了但 4 小时跑不完
只有很少的失败是因为"不理解任务"

换句话说，AI 智能体基本都能理解任务在说什么，它的瓶颈在于方法选择和计算资源，而不是理解力。

17.8% 超越 SOTA 意味着什么？

Claude Opus 4.7 在 17.8% 的任务上超越了论文报告的 SOTA。这到底算好还是坏？

要看你怎么定义"好"。

从乐观角度看：这些是 Nature 系列论文，代表人类当前最好的科学方法。AI 在 17.8% 的任务上超越了人类最优，这本身就很惊人——相当于一个通用 AI 在近五分之一的科学问题上比专门研究这个问题的科学家做得更好。

从悲观角度看：82.2% 的任务 AI 没有超越 SOTA。考虑到这些任务的方法已经在论文里写清楚了，AI 只需要实现而已（虽然禁网让它看不到论文原文），这个比例说明从"读论文"到"写代码复现"之间还有巨大的鸿沟。

更值得深思的是"超越"的质量。论文引入了一个"事后有效性裁判"来检测捷径行为——比如智能体可能通过输出捏造或利用评估反馈来"骗"高分。通过有效性检查的成功才是真成功。这说明在 AI-for-Science 领域，评估方法本身就是一个难题。

为什么这件事重要？

NatureBench 的价值不在于排名，而在于它问了一个此前没人系统回答的问题：AI 编程智能体能不能做科学发现？

之前的基准要么测"能不能复现论文"（PaperBench 类），要么测"能不能优化工程问题"（Kaggle 类）。NatureBench 测的是更难的事：给定一个科学问题和数据，AI 能不能自己想出一个达到或超越论文 SOTA 的方法？

答案是可以，但只在 17.8% 的情况下。而且它做到的方式不是科学发明，而是方法论翻译——把新问题映射到已知方法上。

这对 AI-for-Science 的未来方向有重要启示：

1. 方法论翻译能力已经相当强。45.5% 的成功案例走这条路，说明前沿模型已经积累了足够多的方法知识，能在跨学科场景下做方法匹配。 2. 真正的科学发明能力还很弱。AI 能把科学问题翻译成已知的监督学习问题，但很难为科学问题设计全新的方法。 3. 方法选择是关键瓶颈。45.1% 的失败源于方法选择错误，这意味着提升空间不在于"更会写代码"，而在于"更会选方法"。

诚实评价

几个需要关注的点：

1. 90 个任务不算多。虽然覆盖六个领域，但每个领域平均只有 15 个任务，统计粒度有限。 2. 禁网搜索是双刃剑。一方面保证了评估的公平性（不能直接抄论文代码），另一方面也偏离了真实使用场景——实际科研中智能体是可以上网查资料的。 3. 4 小时墙钟限制对某些需要长时间训练的科学方法不公平。24.4% 的失败源于计算预算不足，这些失败不能归咎于智能体能力。 4. "超越 SOTA"的门槛 g > 0.1 是一个相对宽松的标准。严格来说，小幅超越可能落在噪声范围内。

对行业的启示

NatureBench 给 AI-for-Science 领域泼了一盆冷水，也给了一条清晰的路线图。

冷水是：别再吹"AI 能做科学研究"了。在 82% 的科学任务上，AI 还达不到人类专家的水平。

路线图是：方法选择能力是下一个突破口。当前智能体的代码能力已经很强，但它还不知道"面对这个问题该用什么方法"。这可能是下一步提升的关键——不是让模型写更多代码，而是让模型学会在方法空间里做更好的搜索。

当 AI 智能体的方法选择正确率从 55% 提升到 80% 时，NatureBench 上的超越率可能会从 17.8% 跳到 40%+。那才是 AI-for-Science 真正起飞的时候。

---

论文： NatureBench: Can Coding Agents Match the Published SOTA of Nature-Family Papers? arXiv： https://arxiv.org/abs/2606.24530 HTML： https://arxiv.org/html/2606.24530v1 代码： https://github.com/FrontisAI/NatureBench 机构： Horizon Research、Frontis.AI、清华大学