NatureBench:AI编程智能体只在18%的Nature论文任务上超越人类SOTA
当 AI 编程智能体遇上 Nature 论文
你刚发了一篇 Nature。论文里你提出了一个新方法,在某个科学问题上拿到了 SOTA(当前最优结果)。现在有人把你的论文丢给一个 AI 编程智能体,让它从零开始写代码复现你的方法,看看能不能达到你论文里报告的精度。
结果:最强的 AI 智能体(Claude Opus 4.7)只在 17.8% 的任务上超越了论文报告的 SOTA,在 47.8% 的任务上勉强打平。剩下 34.4% 的任务,它连复现都做不到。
这就是 NatureBench——一个从 Nature 系列期刊论文中提炼出 90 个任务的新基准测试。它问的问题不是"AI 能不能写代码",而是"AI 能不能做科学发现"。
90 个任务,从论文到可执行环境
NatureBench 的核心是一个叫 NatureGym 的自动化流水线。它的工作流程是:
1. 筛选论文:从 Nature、Nature Methods、Nature Communications 等期刊中筛选有代码、有数据、有明确评估指标的论文 2. 构建任务包:把论文的方法部分提取出来,配上数据集和评估脚本,打包成一个容器化的可执行环境 3. 标准化评估:每个任务都有统一的接口——给智能体论文方法描述和数据,让它写代码实现,跑评估脚本打分
这解决了以往 AI-for-Science 基准的一个老大难问题:环境碎片化。以前每个论文的复现环境都不一样,依赖冲突、数据格式不兼容、评估脚本缺失……导致基准测试的结果几乎不可复现。NatureGym 把每个任务都装进独立容器,任何人拿到都能跑。
90 个任务覆盖六个科学领域:计算生物学、材料科学、化学、物理、地球科学、医学。每个任务都来自真实发表的 Nature 系列论文,有同行评审过的方法和公开的 SOTA 数字。
测试了 10 个前沿智能体,严格禁网
论文测了 10 个配置,覆盖三大编程智能体框架:
- Claude Code 搭载 Claude Opus 4.7、Claude Sonnet 4.5 等
- Codex CLI 搭载 GPT-5.4、GPT-5.5
- Gemini CLI 搭载 Gemini 3.5 Flash
- 还有 K2.6、MiniMax-M2.7、DeepSeek-V4-Pro、GLM-5.1、Qwen 3.7 Max 等模型
每个任务给 4 小时墙钟时间,GPU 按任务需求分配(70 个任务给 RTX 3090/4090,17 个重计算任务给 A800,3 个不需要 GPU 的跑 CPU)。
核心发现:方法论翻译,不是科学发明
900 次任务运行(10 个智能体 × 90 个任务)的分析揭示了一个反直觉的结论:
成功的智能体不是在做科学发明,而是在做方法论翻译。
具体来说,45.5% 的成功案例走的是同一条路:智能体把科学问题翻译成它熟悉的监督学习预测问题,然后用标准机器学习流程解决。它不是"理解了科学问题然后创造新方法",而是"把科学问题映射到自己已知的方法空间里找最接近的那个"。
失败模式也很有启发:
- 45.1% 的失败是因为方法选择错误——智能体选了一个根本不适合这个问题的方法
- 24.4% 的失败是因为计算预算不足——方法对了但 4 小时跑不完
- 只有很少的失败是因为"不理解任务"
17.8% 超越 SOTA 意味着什么?
Claude Opus 4.7 在 17.8% 的任务上超越了论文报告的 SOTA。这到底算好还是坏?
要看你怎么定义"好"。
从乐观角度看:这些是 Nature 系列论文,代表人类当前最好的科学方法。AI 在 17.8% 的任务上超越了人类最优,这本身就很惊人——相当于一个通用 AI 在近五分之一的科学问题上比专门研究这个问题的科学家做得更好。
从悲观角度看:82.2% 的任务 AI 没有超越 SOTA。考虑到这些任务的方法已经在论文里写清楚了,AI 只需要实现而已(虽然禁网让它看不到论文原文),这个比例说明从"读论文"到"写代码复现"之间还有巨大的鸿沟。
更值得深思的是"超越"的质量。论文引入了一个"事后有效性裁判"来检测捷径行为——比如智能体可能通过输出捏造或利用评估反馈来"骗"高分。通过有效性检查的成功才是真成功。这说明在 AI-for-Science 领域,评估方法本身就是一个难题。
为什么这件事重要?
NatureBench 的价值不在于排名,而在于它问了一个此前没人系统回答的问题:AI 编程智能体能不能做科学发现?
之前的基准要么测"能不能复现论文"(PaperBench 类),要么测"能不能优化工程问题"(Kaggle 类)。NatureBench 测的是更难的事:给定一个科学问题和数据,AI 能不能自己想出一个达到或超越论文 SOTA 的方法?
答案是可以,但只在 17.8% 的情况下。而且它做到的方式不是科学发明,而是方法论翻译——把新问题映射到已知方法上。
这对 AI-for-Science 的未来方向有重要启示:
1. 方法论翻译能力已经相当强。45.5% 的成功案例走这条路,说明前沿模型已经积累了足够多的方法知识,能在跨学科场景下做方法匹配。 2. 真正的科学发明能力还很弱。AI 能把科学问题翻译成已知的监督学习问题,但很难为科学问题设计全新的方法。 3. 方法选择是关键瓶颈。45.1% 的失败源于方法选择错误,这意味着提升空间不在于"更会写代码",而在于"更会选方法"。
诚实评价
几个需要关注的点:
1. 90 个任务不算多。虽然覆盖六个领域,但每个领域平均只有 15 个任务,统计粒度有限。 2. 禁网搜索是双刃剑。一方面保证了评估的公平性(不能直接抄论文代码),另一方面也偏离了真实使用场景——实际科研中智能体是可以上网查资料的。 3. 4 小时墙钟限制对某些需要长时间训练的科学方法不公平。24.4% 的失败源于计算预算不足,这些失败不能归咎于智能体能力。 4. "超越 SOTA"的门槛 g > 0.1 是一个相对宽松的标准。严格来说,小幅超越可能落在噪声范围内。
对行业的启示
NatureBench 给 AI-for-Science 领域泼了一盆冷水,也给了一条清晰的路线图。
冷水是:别再吹"AI 能做科学研究"了。在 82% 的科学任务上,AI 还达不到人类专家的水平。
路线图是:方法选择能力是下一个突破口。当前智能体的代码能力已经很强,但它还不知道"面对这个问题该用什么方法"。这可能是下一步提升的关键——不是让模型写更多代码,而是让模型学会在方法空间里做更好的搜索。
当 AI 智能体的方法选择正确率从 55% 提升到 80% 时,NatureBench 上的超越率可能会从 17.8% 跳到 40%+。那才是 AI-for-Science 真正起飞的时候。
---
论文: NatureBench: Can Coding Agents Match the Published SOTA of Nature-Family Papers? arXiv: https://arxiv.org/abs/2606.24530 HTML: https://arxiv.org/html/2606.24530v1 代码: https://github.com/FrontisAI/NatureBench 机构: Horizon Research、Frontis.AI、清华大学
🌟 智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
🎁 领取 2000万 Tokens