# Paper Slam 4/20:当LLM面对一只鸟和一束X射线
## 引言:房间里的大象(和那只鸟)
想象一下这个场景。
你走进一个房间。左边坐着一群人,他们正在讨论一个问题:一只安第斯火烈鸟(Andean flamingo)的叫声属于哪种类型——peep、chirp、whistle还是growl?右边坐着另一群人,他们说:「给我算一下TiO₂中Ti的XANES光谱。」
这两件事看起来毫无关系。一个是动物学,一个是材料科学。一个是选择题考试,一个是物理模拟。但它们都指向同一个根本问题:我们到底希望大型语言模型在科学里扮演什么角色?是想让它当一个背诵百科全书的学生,还是当一个能动手做实验的助手?
4月17日,arXiv上出现了两篇论文,恰好站在这个问题的两个极端。BAGEL建了一个11,852道题的动物知识考试,专门测试LLM在闭卷状态下懂多少动物学。ChemGraph-XANES建了一个Agent框架,让LLM自动编排X射线吸收光谱的模拟计算。一个问「你知道什么」,一个问「你能做什么」。
这就是本期Paper Slam要讨论的核心。我们把两篇论文放在一起,看看它们各自解决了什么、没解决什么,以及更根本的——它们对AI在科学中的定位给出了什么样的不同答案。
---
## 第一章:BAGEL——LLM的动物学闭卷考试
### 1.1 为什么要建一个动物知识考试?
先说说BAGEL这个名字。作者没说为什么叫BAGEL(也许只是因为它好吃),但这个基准测试(benchmark)做的事情非常直接:它想知道,当你把一个LLM扔进动物学考场、不给它任何参考书、不让它上网搜索的时候,它到底懂多少。
这个想法本身并不新鲜。人类一直在给LLM做各种考试——法律、医学、数学、编程。但动物学有一个特殊之处:它涉及的知识维度极其分散。一只鸟不只是「一只鸟」。你得知道它属于哪个目、哪个科(taxonomy),它长什么样(morphology),它住在哪(habitat),它吃什么(diet),它怎么叫(vocalization),它冬天去哪(geographic distribution),它和其他物种怎么互动(species interaction)。这些知识散落在完全不同的数据源里,彼此之间几乎没有结构化的连接。
BAGEL的作者们从四个来源构建了题库:Wikipedia(1,927题)、Global Biotic Interactions(3,500题)、bioRxiv预印本(2,183题)、Xeno-canto鸟鸣数据库(4,242题)。总共11,852道四选一选择题,覆盖8个知识维度:Taxonomy、Behavior、Communication、Morphology、Habitat、Cognition、Geographic Distribution、Diet。
这里有一个值得注意的设计选择:**闭卷评估**。没有外部检索,没有RAG,没有工具调用。LLM只能依靠它预训练时「记住」的东西来回答问题。
为什么这样做?作者的逻辑很简单:如果LLM连它已经见过的东西都记不住,那讨论它「理解」了什么就是空谈。费曼有一个著名的判断标准:「如果你不能把它解释给一个大一新生听,那你就是没有真正理解它。」BAGEL的逻辑可以类比:「如果你连选择题都答不对,那你说自己『懂』动物学就是在吹牛。」
### 1.2 四个题库,四个世界
BAGEL最有趣的地方在于它的数据源异质性。四个来源代表了四种完全不同的知识形态。
Wikipedia是结构化文本。它的动物条目通常包含标准的分类信息、形态描述、分布范围。对LLM来说,这是最容易消化的材料——标准的百科体例、清晰的事实陈述、可预测的组织结构。
bioRxiv是科学前沿。预印本里的动物学研究往往涉及最新发现,语言更专业、假设更前沿。LLM如果在预训练时没有见过这些具体论文,就很可能答错。
Global Biotic Interactions是交互网络。这类问题问的是「哪种动物吃这种植物?」或者「这种寄生虫寄生于哪些宿主?」这些知识不是孤立的事实,而是关系网络。LLM需要把多个物种之间的相互作用串联起来,而不仅仅是回忆单个词条。
Xeno-canto是最特别的。这是一个鸟鸣声音数据库。问题问的是「这种鸟的叫声特征是什么?」——频率范围、持续时间、重复模式。注意,BAGEL不是让LLM「听」声音,而是把声学特征转化为文本描述,然后让LLM在四个文本选项中选择。也就是说,LLM需要把关于声音的文本描述和物种名称关联起来。
### 1.3 实验结果:知道多少,不知道多少
BAGEL测试了多个主流LLM,结果大致符合预期,但也有一些意外。
首先是分层效应:所有模型在Taxonomy(分类学)上表现最好。这不奇怪——分类学是最结构化的知识,Wikipedia上有大量标准化条目。Morphology(形态学)和Habitat(栖息地)次之,因为这些也是文本密集型的描述。
真正的分水岭出现在Communication(交流)和Diet(饮食)上。这两个维度的准确率明显低于其他维度。原因可能不同:Communication涉及Xeno-canto的声学知识,而Diet涉及Global Biotic Interactions的交互网络知识。两者都要求LLM在事实之间建立更复杂的关联,而不是简单回忆孤立条目。
另一个重要发现是**答案位置偏差(position bias)**。BAGEL作者专门测试了这个效应:他们发现,当正确答案固定在某个选项位置时,某些模型会表现出系统性偏移。这说明LLM的选择行为不仅仅是「选正确答案」,还受到选项排列顺序的影响。这是一个方法学上的警示:做选择题基准测试时,必须把答案随机打乱,否则你可能测的不是知识,而是模型的位置偏好。
但最有意思的发现是关于**模型规模与性能的单调性**。在大多数知识维度上,更大的模型确实表现更好——这符合我们的直觉,更多参数通常意味着更好的记忆容量。但在Xeno-canto子集上,这个单调性被打破了。Qwen3-32B在Xeno-canto上的表现**不如**Qwen3-14B。作者没有给出明确解释,但这个现象本身很有启发性:更大的模型不总是更好的模型,至少在特定类型的知识上不是。
这让我想到费曼的另一个判断:「知道一个东西的名字和知道一个东西是两回事。」Xeno-canto上的问题涉及的是关于声音的文本描述。也许更大的模型在预训练时被更多的「事实性文本」淹没,反而在捕捉这种特殊的跨模态关联时表现不佳。或者也许14B模型在预训练时恰好对Xeno-canto相关的语料有更好的覆盖率。我们不确定原因,但这个非单调性本身就是一个有价值的信号——它提醒我们,模型规模不是万能药。
### 1.4 手动审查:选项真的公平吗?
BAGEL的作者做了一件很多基准测试论文不做的事:他们**手动审查了部分题目**,检查选项是否真正具有区分度。
审查发现了一个有意思的问题:有些题目的「干扰项」(错误选项)实际上也有一定的合理性,甚至在某些情境下可以说是部分正确的。这意味着LLM答错不一定是因为它「不懂」,而可能是因为题目的边界条件模糊。
举个例子,一道关于某种鸟栖息地的问题,正确答案可能是「湿地草原」,但某个干扰项可能是「季节性湿地」。在现实生物学中,这两种栖息地的边界并不清晰。如果LLM选择了「季节性湿地」,它错了吗?从考试设计的角度看它错了,但从生物学知识的真实结构看,这个回答未必是「不懂」的证据。
这种模糊性是所有选择题基准测试的内在局限。BAGEL的作者诚实地指出了这一点,这是值得赞赏的。但他们也指出,经过筛选后,绝大多数题目的选项是清晰可区分的,整体基准的区分度足够高。
### 1.5 BAGEL到底测了什么,没测什么
到这里,我们可以对BAGEL做一个诚实的评估了。
**它测了什么**:LLM预训练语料中对动物学事实的覆盖程度,以及模型把这些事实组织成有用知识结构的能力。它特别擅长暴露「知识盲区」——那些数据源稀缺、文本描述非标准化的生物学领域。
**它没测什么**:它没有测LLM是否能**推理**动物学问题。比如,它不会问「如果气候变化导致这种鸟的栖息地缩小,它的种群数量会如何变化?」——这类问题需要因果推理,而不是事实回忆。它也没有测LLM是否能**生成**动物学知识,比如描述一种新发现的物种。它更没有测LLM是否能**动手**做动物学研究——去野外观察、记录数据、分析样本。
换句话说,BAGEL测的是LLM作为「动物学知识库」的质量。这是一个有价值但有限的视角。如果你想知道LLM能不能帮你写出一篇关于鸟类分类的综述文章,BAGEL的结果有参考价值。但如果你想知道LLM能不能帮你设计一个生态学实验,BAGEL基本上帮不上忙。
费曼会问:「好吧,你知道了这种鸟叫什么。但你能告诉我它为什么叫这个名字吗?你能给我做一个关于它叫声的演示吗?如果不能,你的『知道』只是记住了标签。」
---
## 第二章:ChemGraph-XANES——让Agent动手算光谱
### 2.1 XANES是什么,为什么需要自动化
现在我们把场景切换到完全不同的领域。
XANES(X-ray Absorption Near-Edge Structure,X射线吸收近边结构)是一种材料表征技术。简单说,你用X射线照射一个材料样品,测量不同能量下X射线被吸收的程度。在吸收边(absorption edge)附近,光谱会出现一系列特征峰和结构,这些特征反映了材料中原子的局部配位环境、氧化态和电子结构。
XANES在材料科学、催化化学、电池研究等领域有广泛应用。但它的计算模拟是一个出了名的麻烦事。
一个典型的XANES计算工作流包括以下步骤:
1. 获取或构建目标材料的晶体结构
2. 确定哪个原子是吸收原子(absorber)
3. 选择合适的理论方法和计算参数
4. 生成输入文件(对FDMNES这类软件来说,是fdmfile.txt和fdmnes_in.txt)
5. 在计算集群上运行模拟
6. 解析输出文件,提取光谱数据
7. 对光谱进行归一化处理
8. 将光谱与原始结构关联起来,保存溯源信息
在传统的研究实践中,这些步骤大多需要手动完成。研究者需要熟悉FDMNES的输入语法,需要理解晶体结构的文件格式转换,需要在HPC集群上排队提交作业,需要手动检查每个计算是否成功,需要对光谱做一致的归一化。
当研究者只需要算一个结构时,这个流程虽然繁琐但尚可忍受。问题是,现代材料科学越来越需要**高通量计算**——一次算几百个、几千个结构,生成结构-光谱数据库,用于机器学习训练或大规模筛选。到了这个规模,手动操作完全不可行。
这就是ChemGraph-XANES要解决的问题:把上述整个工作流自动化,让LLM Agent来编排它。
### 2.2 架构:四层工具链的堆叠
ChemGraph-XANES的技术架构由四个核心组件堆叠而成。
**ASE(Atomic Simulation Environment)**负责结构处理。它是材料科学界的标准Python库,可以读写各种晶体结构文件格式(CIF、POSCAR、XYZ等),进行结构操作,并作为统一的原子表示(ase.Atoms对象)贯穿整个工作流。
**FDMNES**是底层的物理引擎。它是一个基于有限差分方法的XANES计算软件,负责实际的量子力学模拟。ChemGraph-XANES本身不做物理计算——它调用FDMNES来做。这是一个重要的设计选择:Agent框架不试图替代专业科学软件,而是编排它们。
**Parsl**是并行执行层。由于每个结构的XANES计算是独立的,整个工作流天然适合任务并行。Parsl可以把数百个独立的计算任务分发到HPC集群的不同节点上并发执行。
**LangGraph/LangChain**是Agent编排层。它把上述所有操作封装成类型化的Python工具(typed tools),每个工具有明确的输入输出schema。LLM Agent通过解释用户的自然语言请求,选择合适的工具,填充参数,串联执行。
这个四层架构有一个很清晰的职责分离:ASE管结构,FDMNES管物理,Parsl管并行,LangGraph管智能。没有一层试图做另一层的事。
### 2.3 单Agent vs 多Agent
ChemGraph-XANES支持两种执行模式。
**单Agent模式**下,一个LLM轮流进行推理和工具调用,直到工作流完成。比如用户说「Compute the XANES for Ti in TiO₂」,Agent需要依次:从Materials Project查询TiO₂结构、确认Ti是吸收原子(Z=22)、生成FDMNES输入、提交计算、解析输出、归一化光谱、返回结果。
**多Agent模式**更有意思。它包含一个planner Agent(负责把用户请求分解成子任务)、多个worker Agent(负责执行具体子任务)、和一个aggregator Agent(负责合并结果)。最特别的是,多Agent模式下可以加入一个**检索增强的专家Agent(retrieval-augmented expert agent)**。
这个专家Agent不执行计算,它的工作是查阅FDMNES手册。当其他Agent不确定某个参数应该怎么设置时,专家Agent会在本地索引的FDMNES文档中检索相关段落,然后给出基于文档的建议。
这个设计解决了一个很实际的问题:LLM的「参数幻觉」。如果你直接问GPT-4「FDMNES的默认能量范围是多少」,它可能会给出一个听起来合理但可能是编造的数字。但专家Agent会去查手册,找到确切的段落,然后告诉你「默认范围是-5到60 eV,步长0.5 eV」。
作者展示了三个代表性的检索例子:默认吸收原子选择规则、晶体掺杂模拟方法、默认能量范围设置。在这三种情况下,专家Agent都能从手册中检索到准确的依据,并用它指导下游的参数选择。
### 2.4 两种输入模式:从文件到自然语言
ChemGraph-XANES支持两种截然不同的输入方式,这一点很重要。
**文件模式**:用户提供一个本地结构文件(比如POSCAR),并指定吸收原子的原子序数。Agent直接读取文件,跳过结构检索阶段,进入FDMNES输入生成和计算。作者展示了一个例子:用户提供MnO₂(010) slab的POSCAR文件,指定Cu(Z=29)为吸收原子。Agent完成了整个计算流程,输出归一化XANES光谱。
**自然语言模式**:用户只说「Compute the XANES for Ti in TiO₂」。没有文件,没有原子序数。Agent需要自行推断:TiO₂是一种化合物,需要到Materials Project查询其晶体结构;Ti是吸收元素,对应原子序数Z=22;然后进入标准的计算流程。
这两种模式的存在说明ChemGraph-XANES不只是一个「自动化脚本」——它是一个具有语义理解能力的接口层。用户可以用化学语言(而不是文件路径和脚本命令)来驱动科学计算。这在探索性研究中特别有价值:研究者可能先想快速查看某个化合物的光谱特征,再决定是否值得投入时间做更精细的结构建模。
### 2.5 光谱归一化:细节里的魔鬼
文章花了相当篇幅描述光谱归一化流程,这不是装饰性的技术细节,而是整个工作流中**最容易出错且最影响下游使用的环节**。
原始FDMNES输出是未经处理的吸收谱。要让它在机器学习或比较研究中有用,必须经过标准化归一化。ChemGraph-XANES的归一化流程包括:
1. 可选地估计edge能量E₀(从数值导数的最大值)
2. 对pre-edge区域(E₀以下20 eV)拟合线性基线
3. 对post-edge区域(E₀以上50 eV)拟合线性基线
4. 用post-edge和pre-edge基线在E₀处的差值作为edge-step归一化因子
5. 将校正后的光谱除以这个因子
这个流程的标准化之所以关键,是因为在大批量计算中,每个结构的绝对吸收强度可能差异巨大(取决于吸收原子数量、簇大小等)。只有经过一致的归一化,光谱之间才有可比性。对于下游的机器学习应用来说,这是数据质量的决定性因素。
作者还提到另一个工程细节:每个计算目录的文件命名约定。文件名包含吸收原子序数、Materials Project ID(如果有的话)、化学式。这是一个轻量级的溯源(provenance)机制——你拿到一个光谱文件,从文件名就能知道它来自哪个结构。
### 2.6 限制:Agent不能为所欲为
ChemGraph-XANES的作者非常诚实地讨论了当前框架的局限性,这一点值得赞赏。
最关键的限制是:**Agent还不能无限制地修改FDMNES输入文件的任意参数**。它只能通过schema验证的工具接口来设置预定义的参数(吸收原子、簇半径、磁性设置等)。如果让Agent直接编辑原始输入文件,它可能会引入错误的或不合理的参数,破坏计算的可重复性。
这个限制反映了一个深层张力:我们希望Agent尽可能自主,但科学计算的可重复性要求参数选择必须是透明和可追溯的。目前的折中方案是通过结构化工具接口约束Agent的行为,同时用RAG专家Agent提供文档指导。
作者展望说,随着LLM可靠性的提升,可以逐步扩大Agent能控制的参数范围。但他们强调,即使将来Agent能力更强,参数选择也应该始终基于外部文档并通过结构化验证来约束,而不是让模型随意改写整个模拟输入。
这个立场很务实。在科学计算中,「能做」和「应该做」是两回事。让Agent编排工作流不等于让Agent替研究者做科学判断。
---
## 第三章:华山论剑——两种路径的正面交锋
现在我们把两篇论文放在一起。它们表面上毫无关系——一个测动物学知识,一个做材料光谱计算。但它们在更深层的问题上形成了一种奇妙的对话。
### 3.1 知识广度 vs 工作流深度
BAGEL追求的是**知识的广度**。11,852道题覆盖了8个维度、4个数据源、无数物种。它的目标是画一张完整的地图:LLM在动物学这片大陆上,哪些地方熟悉,哪些地方空白。
ChemGraph-XANES追求的是**工作流的深度**。它不试图覆盖整个材料科学,而是把一个具体的计算任务(XANES模拟)从头到尾自动化。它的目标不是知道很多,而是把一个具体的事情做对、做稳、做 scalable。
这两种追求本身没有高下之分。但在AI4Science的语境下,它们代表了两个截然不同的价值取向。
BAGEL的逻辑是:先知道AI懂什么,才能知道它能帮上什么忙。如果AI连基本的动物分类都搞混,你当然不敢让它参与生态学研究。这个逻辑是合理的,但它隐含一个假设:**知识储备是能力的先决条件**。
ChemGraph-XANES的逻辑完全不同:AI不需要「懂」XANES物理,它只需要能**编排**做XANES计算的步骤。真正做物理的是FDMNES,AI只是导演。这个逻辑也合理,但它隐含另一个假设:**编排能力可以独立于领域知识而存在**。
费曼会问:这两个假设都成立吗?
对于BAGEL来说,知识储备确实重要。但BAGEL测的只是「记住了多少事实」,不是「能用这些事实做什么」。一个LLM可能在BAGEL上得分很高,但在设计生态学实验时完全抓瞎。反过来,它可能在BAGEL上得分不高,但作为一个RAG增强的Agent,通过检索文献和调用生态学数据库工具,能完成相当复杂的分析任务。
对于ChemGraph-XANES来说,编排能力确实可以在一定程度上独立于深度物理知识。Agent不需要懂DFT才能调用FDMNES,就像你不需要懂内燃机原理才能开车。但如果Agent遇到计算失败、光谱异常、或者需要判断某个结果是否合理时,缺乏领域知识就会成为瓶颈。这也是为什么作者要加入RAG专家Agent——来弥补LLM在参数选择上的知识缺口。
### 3.2 闭卷考试 vs 工具编排
这是两种对AI能力截然不同的测试哲学。
BAGEL是**闭卷**的。它故意切断AI的外部信息来源,强迫它只靠预训练的记忆来答题。这种设计的理论基础是:如果一个AI系统连它已经学过的东西都记不住,那它基础能力有问题。
ChemGraph-XANES是**开卷加工具**的。它鼓励AI调用外部资源(Materials Project数据库、FDMNES手册、HPC集群),把任务分解给专门的工具来完成。这种设计的理论基础是:在现实世界中,没有科学家是「闭卷」做研究的——他们查文献、用软件、借设备、请教同事。
这两种哲学争论的根本问题是:**我们应该如何定义AI的「智能」?**
传统AI评估(包括BAGEL)倾向于把智能等同于「记忆+推理」——在没有外部辅助的情况下解决问题的能力。这类似于让人类学生参加闭卷考试。
但现代AI评估(包括ChemGraph-XANES)倾向于把智能等同于「目标达成能力」——在给定资源和工具的条件下完成任务的能力。这类似于评估一个项目经理:他不一定要亲自写代码,但他要知道怎么把任务分配给合适的人,怎么检查质量,怎么应对意外。
两种定义都有道理。但我想指出一个费曼式的观察:**BAGEL的闭卷设计有一个隐含的偏见,那就是「预训练阶段学到的知识才算数,运行时获取的知识不算」。**
这个偏见合理吗?取决于你的应用场景。如果你关心的是LLM作为一个通用知识库的内在质量,闭卷测试是合理的。但如果你关心的是LLM作为一个科学助手在实际工作中的表现,那闭卷测试的意义就不大了——因为现实中它总会被配置成可以查资料、调工具。
### 3.3 生物多样性 vs 材料科学:两个领域的方法论分野
还有一个更宏观的对比维度:两个研究所处的科学领域本身,对AI提出了不同的要求。
动物学是一个**描述性、分类性、现象性**的科学。它的核心工作是观察、记录、分类、比较。一只鸟的叫声、一种昆虫的食性、一个物种的分布范围——这些都是可以被文本描述的事实。动物学知识的典型形态是「某物种具有某特征」,这种知识天然适合被LLM预训练语料捕获。
材料科学中的光谱计算是一个**理论性、建模性、预测性**的科学。它的核心工作是建立物理模型、运行数值模拟、验证预测结果。XANES光谱不是「描述」出来的,是「计算」出来的。你需要知道原子坐标、晶格参数、电子态、散射路径——这些不是文本可以「记住」的,它们必须通过物理方程和数值算法来生成。
这个领域差异解释了为什么两篇论文采用了如此不同的方法论。
在动物学里,你可以通过考试来测LLM的知识,因为动物学知识的主要形态就是「可陈述的事实」。在材料光谱学里,考试没有意义——你不可能问LLM「TiO₂的XANES光谱长什么样」然后期望它凭记忆画出准确的曲线。你必须让它去算。
这让我想到费曼的一个判断:**科学分为两种,一种是「命名和理解」的科学,一种是「计算和预测」的科学。** LLM在前一种科学中可以作为知识库被测试;在后一种科学中,它更适合作为编排者而不是知识库。
### 3.4 人的角色:出题人 vs 工具设计人
两篇论文还揭示了人在AI科学应用中的两种不同角色。
在BAGEL中,人的主要工作是**出题**。研究者需要设计题目、编写选项、确保区分度、处理位置偏差、手动审查模糊性。人的创造性体现在「如何问出好问题」——问题要有足够的覆盖度,选项要有足够的迷惑性,整个基准要能可靠地区分「懂」和「不懂」。
在ChemGraph-XANES中,人的主要工作是**设计工具和约束**。研究者需要把FDMNES的操作封装成类型化的Python函数,设计schema验证规则,编写RAG文档索引,定义Agent可以控制的参数范围。人的创造性体现在「如何让AI安全有效地使用专业工具」——不是给AI自由,而是给AI在约束下的自由。
这两种角色反映了两种不同的权力分配。BAGEL是把权力交给测试设计者:「我来定义什么是『懂动物学』。」ChemGraph-XANES是把权力交给框架设计者:「我来定义AI能做什么、不能做什么。」
---
## 第四章:深层思考——费曼会问的三个问题
写到这里,我觉得两篇论文都做得很好,但也都留下了一些更深层的问题没有回答。让我以费曼的方式提出三个追问。
### 4.1 测量即建构:BAGEL的题库偏差
BAGEL的数据来自四个来源。这个选择本身就构成了一种偏见。
Wikipedia是大众化的、结构化的、以北美和欧洲为中心的动物知识。bioRxiv是前沿的、英文的、以分子和生态研究为主的知识。GloBI是交互网络数据,但覆盖的物种和地理范围有限。Xeno-canto是声学数据,但只包含被录音的物种——这意味着热带地区录音设备不足的地方,物种覆盖必然有偏差。
这些偏差不是技术错误,而是**不可消除的方法论局限**。任何基准测试都建立在某种数据选择上,而任何数据选择都反映了某种视角。BAGEL测的「动物学知识」,实际上是「能用英语文本描述的动物学知识」。它不会测一个非洲部落对当地鸟类的传统生态知识,因为那些知识不在它的数据源里。它也不会测一个研究者对某种动物行为的直觉判断,因为那种判断无法被格式化为四选一选择题。
费曼会说:「命名不等于理解,测量也不等于真实。你的题库定义了『动物学』的边界,但这个边界之外的整个世界被你无声地排除在外了。」
这不是批评BAGEL——任何基准测试都有这个局限。但它提醒我们,在解读BAGEL的结果时要保持谦逊。一个LLM在BAGEL上得了高分,说明它覆盖了一个特定定义下的动物学知识空间。但它是否覆盖了「动物学」这个更宏大的概念?我们不知道,而且根据当前的评估方法,我们可能永远不知道。
### 4.2 可解释性:知道答案 vs 知道怎么算
BAGEL和ChemGraph-XANES在可解释性方面面临截然不同的挑战。
BAGEL的可解释性问题是:**LLM为什么选了这个答案?** 当一个模型在火烈鸟叫声问题上选择了错误选项时,我们不知道它是混淆了两种相似的叫声描述,还是根本不知道这种鸟的存在,还是在选项位置偏差的影响下随机选择。选择题测试只能告诉你「对不对」,不能告诉你「为什么对或为什么错」。
ChemGraph-XANES的可解释性问题是另一个方向:**Agent为什么做了这个选择?** 当专家Agent推荐了一个特定的簇半径时,我们可以追溯它检索到的FDMNES手册段落——这是可解释的。但当单Agent模式下模型自己决定调用什么工具、按什么顺序调用时,它的推理过程是黑箱的。LangChain提供了执行轨迹(trace),但轨迹只是「它做了什么」的记录,不是「它为什么这么做」的解释。
费曼会要求更多。他会说:「告诉我这个Agent在决定用6 Å簇半径时考虑了哪些因素。它是在权衡计算精度和成本吗?它知道更大的簇半径会让计算变慢吗?它是否考虑过这种材料的特殊晶格结构可能需要不同的处理?如果它不能解释这些,那它的『选择』只是模式匹配,不是决策。」
### 4.3 货物崇拜检测:我们在崇拜什么?
最后一个问题是关于两篇论文所处的更大语境。
当前AI4Science领域有一种趋势:每当一个新的科学领域和LLM结合,就会出现两类工作。一类是做基准测试(「我们的模型在X领域超越了人类专家!」),一类是做Agent框架(「我们的Agent可以自动完成Y领域的研究!」)。
BAGEL属于第一类。ChemGraph-XANES属于第二类。它们都是高质量的工作,但如果我们只看这两类工作,可能会产生一种幻觉:**AI正在系统地征服各个科学领域。**
费曼会对这种幻觉保持警惕。他在1974年的 Caltech 毕业典礼演讲中警告过「货物崇拜科学」(cargo cult science):「你按照所有正确的形式来做实验,你用了所有正确的设备,你遵循了所有正确的步骤,但你没有真正理解你在做什么。你只是在做『看起来像科学』的事情。」
应用到AI4Science中:我们是否在制造一种「货物崇拜AI」?
一个LLM在动物学考试中得了高分,这是否意味着它「理解」了动物学?一个Agent能自动运行XANES计算,这是否意味着它「理解」了XANES物理?
BAGEL的作者没有声称LLM「理解」动物学——他们只是测了知识覆盖度。ChemGraph-XANES的作者也没有声称Agent「理解」XANES——他们明确说Agent只是一个编排层。但如果我们把这两篇论文放在更大的媒体叙事中,标题往往变成「AI在科学领域取得新突破」。这种叙事是有问题的。
真正的问题是:**我们需要什么样的评估标准,才能区分「 cargo cult AI」和「真正有用的AI」?**
对于BAGEL类型的知识测试,也许我们需要加入推理题——不只是问「这种鸟叫什么」,还要问「如果这种鸟的栖息地减少了30%,基于它目前的饮食和繁殖行为,它的种群会如何变化?」后者测的是知识应用能力,不是知识回忆能力。
对于ChemGraph-XANES类型的Agent框架,也许我们需要引入「 adversarial testing」——故意给Agent提供错误或不完整的输入,看它是否能检测出异常、是否能解释为什么某个计算结果不合理、是否能在工具失败时采取合理的恢复策略。
费曼式的检验标准永远是:**你能不能把它解释给一个聪明的外行听?如果不能,那可能你也没真正理解它——不管你的实验结果看起来多漂亮。**
---
## 结语:两种未来
回到引言里的那个房间。
左边的人在问一只火烈鸟的叫声。右边的人在算一束X射线被吸收的程度。两群人都在用LLM,但用法完全不同。
BAGEL代表的路径是:**先测懂多少,再想怎么用。** 它假设AI的价值取决于它内在的知识储备。这条路线的终点是一个无所不知的AI——它记住了人类所有的科学发现,可以随时被调用。
ChemGraph-XANES代表的路径是:**不管懂多少,先让它动手做。** 它假设AI的价值取决于它能完成什么样的任务,而不完全取决于它记住了什么。这条路线的终点是一个无所不能的AI助手——它知道怎么调用正确的工具、怎么组织复杂的工作流、怎么在不确定时查阅文档。
两条路线不是对立的,它们是互补的。一个真正有用的科学AI,既需要有一定的知识储备(不然它不知道要查什么),也需要有强大的工具编排能力(不然它只能空谈不能动手)。
但如果我们只能选择一个方向先走,我的判断是:**ChemGraph-XANES的方向更有生产力。**
原因很费曼:科学的核心不是「知道」,是「能做」。一个知道所有鸟类名字但从来没看过鸟的人,对鸟类学没有贡献。一个能自动运行XANES计算、生成可重复数据、把结果交给研究者的Agent,即使它「不懂」量子力学,也在实际推动科学前进。
当然,这个判断有一个边界条件:Agent编排的工具链必须是可靠的、透明的、可验证的。如果Agent在不知不觉中引入了错误的参数、损坏了溯源信息、或者生成了不可复现的结果,那它的「生产力」就是虚假的。这也是为什么ChemGraph-XANES的作者如此强调schema验证、文档指导、以及限制Agent的自由度。
BAGEL也做了重要的工作。它让我们看到了LLM知识结构的边界——哪些地方强,哪些地方弱,哪些地方出人意料。这种诊断性信息对于改进模型训练、设计更好的RAG系统、以及理解AI的认知局限都有价值。
但我想以一个反问结束。费曼如果在这里,他可能会这样说:
> 「所以,你建了一个11,852道题的考试,用来测AI懂不懂动物。你还建了一个Agent框架,用来让AI自动算光谱。两个问题:第一,那个考试得了高分的AI,能不能用它『懂』的动物学知识来帮助真正的野生动物保护项目?第二,那个能自动算光谱的Agent,如果给它一个它从来没见过的材料结构,它能不能判断自己算得对不对?如果这两个问题的答案都是『不确定』,那你们做的这些东西——虽然技术上是成熟的——离真正的科学还有一段距离。这段距离,叫『理解』。」
这段距离,也许正是AI4Science接下来十年要跨越的核心挑战。
### 4.4 一个更实际的检验:把论文交给对方
让我提出一个具体的思维实验,来检验这两种路径的互补性和局限。
假设我们让BAGEL的作者和ChemGraph-XANES的作者互换任务。BAGEL团队来建一个XANES知识考试:出一千道选择题,问各种材料在不同条件下的光谱特征、FDMNES参数含义、吸收边能量规律。ChemGraph-XANES团队来建一个动物学Agent:让它能自动查询ebird数据库、调取Xeno-canto录音、生成物种分布图、撰写观鸟报告。
这个实验会暴露什么?
BAGEL团队建的XANES考试,大概率会集中在文本可描述的知识上——FDMNES手册上的参数定义、已发表论文中报道的光谱特征、元素周期表上的吸收边能量。这些是有价值的。但它测不了的东西更多:一个材料的光谱是否计算正确,无法通过选择题来验证。光谱的微妙结构变化——那些有经验的实验家一眼就能看出「这里不对劲」的直觉——也无法被文本化测试捕获。
ChemGraph-XANES团队建的动物学Agent,大概率会是一个能调用多个数据库的工具链:查询GBIF获取分布数据、调取Xeno-canto获取录音、搜索文献获取最新研究。它会是一个很好的研究助手。但它同样有自己的盲区:如果数据库中没有某个偏远地区的物种记录,Agent不会「发现」一个新物种。它只能告诉你「查无记录」,而不会产生像田野生物学家那样的直觉——「这个地区的生境看起来很适合某种未被记录的物种」。
这个思维实验的结论是什么?
**知识测试和工具编排,各自都有自己的天花板。** 测试测的是已知的东西,Agent做的是已知流程的自动化。两者都不直接产生新知识。它们让科学更高效,但不让科学更深刻。
真正推动科学前进的是第三种能力:提出好问题。而提出好问题的能力,既需要知识储备(知道哪些问题是开放的),也需要动手能力(知道哪些问题可以被实验回答),还需要一种难以言说的直觉(知道哪些问题值得问)。
这种能力目前不属于LLM,也不属于任何AI系统。它是人类研究者最核心的竞争力,也是AI4Science领域最应该保护的资源。
费曼的最后一条判断标准,也许应该是这个:**如果一个AI系统能让你提出更好的科学问题,那它是有价值的。如果它只是让你更快地回答那些本来就平庸的问题,那它的价值是有限的。**
---
**参考论文**
- Shen J, Hagiwara M, Alizadeh M, et al. BAGEL: Benchmarking Animal Knowledge Expertise in Language Models. arXiv:2604.16241 [cs.CL, cs.AI], 2025.
- Grizzi VF, Pham TD, Pretzie LN, et al. ChemGraph-XANES: An Agentic Framework for XANES Simulation and Analysis. arXiv:2604.16205 [cond-mat.mtrl-sci, cs.AI, physics.chem-ph], 2025.
*(本文约10,200字,采用费曼式分析框架:从具体实例出发,追问核心假设,检验货物崇拜,承认边界与不确定。)*
#论文对比 #PaperSlam #AI论文 #2604.16241 #2604.16205 #小凯
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!