> 论文: Can Coding Agents Reproduce Findings in Computational Materials Science? > 作者: Ziyang Huang, Yi Cao, Ali K. Shargh, Jing Luo, Ruidong Mei, Mohd Zaki, Zhan Liu, Wyatt Bunstine, William Jurayj, Somdatta Goswami, Tyrel McQueen, Michael Shields, Jaafar El-Awady, Paulette Clancy, Benjamin Van Durme, Nicholas Andrews, William Walden, Daniel Khashabi > arXiv: 2605.00803 | 2026-05-01
---
一、那个"以为自己能写代码"的AI
2025年,GPT-4和Claude在SWE-bench上杀疯了。自动修复bug、写单元测试、重构代码——看起来,AI程序员已经 ready for prime time。
但有一个领域,SWE-bench的辉煌完全照不进去:计算材料科学。
这里的问题不是"写一个for循环"或者"修复一个空指针"。这里的任务是:
- 从一篇论文中提取一个材料模拟的声明
- 理解背后复杂的物理假设
- 编写正确的密度泛函理论(DFT)或分子动力学(MD)代码
- 运行模拟、分析结果
- 判断模拟结果是否真正"复现"了论文中的声明
---
二、AutoMat:材料科学的"图灵测试"
这项研究提出了AutoMat——一个专门评估AI coding agent在计算材料科学中复现能力的基准测试。
它不是让AI随便写点代码。它要求AI: 1. 阅读理解:从论文中提取具体的计算声明 2. 领域导航:知道DFT、MD、蒙特卡洛各自的适用边界 3. 代码实现:不是写Python脚本,是写调用VASP、LAMMPS、Quantum ESPRESSO的输入文件 4. 结果解释:判断计算输出是否支持原论文的声明
这就像是让AI去参加一场博士资格考试——不仅要会做题,还要知道为什么这么做。
---
三、为什么这比SWE-bench难?
软件工程的bug通常是明确的:这里越界了,那里空指针了。但科学计算的"bug"往往是概念性的:
- 你用了PBE泛函,但论文实际用的是HSE06
- 你的k点网格不够密,导致能带间隙被低估
- 你忽略了自旋极化,而那个材料实际上是铁磁性的
- 你的温度控制是NVT系综,但论文用的是NPT
而AutoMat发现,当前最强的coding agent在这些任务上的表现,远没有在SWE-bench上那么光鲜。
---
四、科学的"可复现性危机"遇上AI
科学界有一个老问题:很多论文的结果无法被独立复现。原因包括代码不开源、参数没写全、甚至是无意的错误。
AutoMat提出了一个大胆的愿景:如果AI能够自动复现计算材料科学的论文,那么不可复现性将被终结。
因为AI不会偷懒,不会"差不多就行",不会故意省略关键参数。它会严格按照论文描述执行每一步。
当然,前提是论文的描述足够精确——而这也是AutoMat暴露出的另一个问题:很多论文本身的描述就不够精确,连人类专家都难以复现。
---
五、费曼式的判断:知道名字不等于知道鸟
费曼讲过那个著名的故事:他的父亲教他,知道一只鸟在全世界所有语言里的名字,不等于你知道那只鸟本身。
同样的道理:
> 让AI写出一个能运行的DFT代码,不等于它"理解"了材料科学。知道VASP的INCAR参数名,不等于知道为什么选这个参数。
AutoMat的真正价值,不在于它给AI打了多少分。而在于它向我们展示了:在科学领域,coding agent需要的不仅仅是编程能力,而是深度领域知识的耦合。
这要求未来的AI科学家不仅要会写代码,还要读过固体物理、量子力学、统计力学——至少是它们的计算版本。
---
六、带走的启发
如果你是材料科学的研究者,别急着让AI帮你跑模拟。
先问它三个问题: 1. "这个体系应该用DFT还是MD?" 2. "PBE和HSE06在这里的区别是什么?" 3. "为什么这篇论文选了500K而不是300K?"
如果AI的回答让你点头,那它可能真的能帮你复现论文。如果它的回答听起来像是从维基百科复制粘贴的——别让它碰你的计算集群。
AutoMat告诉我们:在科学的前沿,工具的智能程度,永远受制于使用工具的人(或AI)对科学本身的理解深度。
#AI4Science #MaterialsScience #ComputationalChemistry #Reproducibility #FeynmanLearning #智柴科研实验室