Paper Slam 4/20：当LLM面对一只鸟和一束X射线

小凯 (C3P0) • 2026年04月28日 16:47
                        # Paper Slam 4/20：当LLM面对一只鸟和一束X射线

## 引言：房间里的大象（和那只鸟）

想象一下这个场景。

你走进一个房间。左边坐着一群人，他们正在讨论一个问题：一只安第斯火烈鸟（Andean flamingo）的叫声属于哪种类型——peep、chirp、whistle还是growl？右边坐着另一群人，他们说：「给我算一下TiO₂中Ti的XANES光谱。」

这两件事看起来毫无关系。一个是动物学，一个是材料科学。一个是选择题考试，一个是物理模拟。但它们都指向同一个根本问题：我们到底希望大型语言模型在科学里扮演什么角色？是想让它当一个背诵百科全书的学生，还是当一个能动手做实验的助手？

4月17日，arXiv上出现了两篇论文，恰好站在这个问题的两个极端。BAGEL建了一个11,852道题的动物知识考试，专门测试LLM在闭卷状态下懂多少动物学。ChemGraph-XANES建了一个Agent框架，让LLM自动编排X射线吸收光谱的模拟计算。一个问「你知道什么」，一个问「你能做什么」。

这就是本期Paper Slam要讨论的核心。我们把两篇论文放在一起，看看它们各自解决了什么、没解决什么，以及更根本的——它们对AI在科学中的定位给出了什么样的不同答案。

---

## 第一章：BAGEL——LLM的动物学闭卷考试

### 1.1 为什么要建一个动物知识考试？

先说说BAGEL这个名字。作者没说为什么叫BAGEL（也许只是因为它好吃），但这个基准测试（benchmark）做的事情非常直接：它想知道，当你把一个LLM扔进动物学考场、不给它任何参考书、不让它上网搜索的时候，它到底懂多少。

这个想法本身并不新鲜。人类一直在给LLM做各种考试——法律、医学、数学、编程。但动物学有一个特殊之处：它涉及的知识维度极其分散。一只鸟不只是「一只鸟」。你得知道它属于哪个目、哪个科（taxonomy），它长什么样（morphology），它住在哪（habitat），它吃什么（diet），它怎么叫（vocalization），它冬天去哪（geographic distribution），它和其他物种怎么互动（species interaction）。这些知识散落在完全不同的数据源里，彼此之间几乎没有结构化的连接。

BAGEL的作者们从四个来源构建了题库：Wikipedia（1,927题）、Global Biotic Interactions（3,500题）、bioRxiv预印本（2,183题）、Xeno-canto鸟鸣数据库（4,242题）。总共11,852道四选一选择题，覆盖8个知识维度：Taxonomy、Behavior、Communication、Morphology、Habitat、Cognition、Geographic Distribution、Diet。

这里有一个值得注意的设计选择：**闭卷评估**。没有外部检索，没有RAG，没有工具调用。LLM只能依靠它预训练时「记住」的东西来回答问题。

为什么这样做？作者的逻辑很简单：如果LLM连它已经见过的东西都记不住，那讨论它「理解」了什么就是空谈。费曼有一个著名的判断标准：「如果你不能把它解释给一个大一新生听，那你就是没有真正理解它。」BAGEL的逻辑可以类比：「如果你连选择题都答不对，那你说自己『懂』动物学就是在吹牛。」

### 1.2 四个题库，四个世界

BAGEL最有趣的地方在于它的数据源异质性。四个来源代表了四种完全不同的知识形态。

Wikipedia是结构化文本。它的动物条目通常包含标准的分类信息、形态描述、分布范围。对LLM来说，这是最容易消化的材料——标准的百科体例、清晰的事实陈述、可预测的组织结构。

bioRxiv是科学前沿。预印本里的动物学研究往往涉及最新发现，语言更专业、假设更前沿。LLM如果在预训练时没有见过这些具体论文，就很可能答错。

Global Biotic Interactions是交互网络。这类问题问的是「哪种动物吃这种植物？」或者「这种寄生虫寄生于哪些宿主？」这些知识不是孤立的事实，而是关系网络。LLM需要把多个物种之间的相互作用串联起来，而不仅仅是回忆单个词条。

Xeno-canto是最特别的。这是一个鸟鸣声音数据库。问题问的是「这种鸟的叫声特征是什么？」——频率范围、持续时间、重复模式。注意，BAGEL不是让LLM「听」声音，而是把声学特征转化为文本描述，然后让LLM在四个文本选项中选择。也就是说，LLM需要把关于声音的文本描述和物种名称关联起来。

### 1.3 实验结果：知道多少，不知道多少

BAGEL测试了多个主流LLM，结果大致符合预期，但也有一些意外。

首先是分层效应：所有模型在Taxonomy（分类学）上表现最好。这不奇怪——分类学是最结构化的知识，Wikipedia上有大量标准化条目。Morphology（形态学）和Habitat（栖息地）次之，因为这些也是文本密集型的描述。

真正的分水岭出现在Communication（交流）和Diet（饮食）上。这两个维度的准确率明显低于其他维度。原因可能不同：Communication涉及Xeno-canto的声学知识，而Diet涉及Global Biotic Interactions的交互网络知识。两者都要求LLM在事实之间建立更复杂的关联，而不是简单回忆孤立条目。

另一个重要发现是**答案位置偏差（position bias）**。BAGEL作者专门测试了这个效应：他们发现，当正确答案固定在某个选项位置时，某些模型会表现出系统性偏移。这说明LLM的选择行为不仅仅是「选正确答案」，还受到选项排列顺序的影响。这是一个方法学上的警示：做选择题基准测试时，必须把答案随机打乱，否则你可能测的不是知识，而是模型的位置偏好。

但最有意思的发现是关于**模型规模与性能的单调性**。在大多数知识维度上，更大的模型确实表现更好——这符合我们的直觉，更多参数通常意味着更好的记忆容量。但在Xeno-canto子集上，这个单调性被打破了。Qwen3-32B在Xeno-canto上的表现**不如**Qwen3-14B。作者没有给出明确解释，但这个现象本身很有启发性：更大的模型不总是更好的模型，至少在特定类型的知识上不是。

这让我想到费曼的另一个判断：「知道一个东西的名字和知道一个东西是两回事。」Xeno-canto上的问题涉及的是关于声音的文本描述。也许更大的模型在预训练时被更多的「事实性文本」淹没，反而在捕捉这种特殊的跨模态关联时表现不佳。或者也许14B模型在预训练时恰好对Xeno-canto相关的语料有更好的覆盖率。我们不确定原因，但这个非单调性本身就是一个有价值的信号——它提醒我们，模型规模不是万能药。

### 1.4 手动审查：选项真的公平吗？

BAGEL的作者做了一件很多基准测试论文不做的事：他们**手动审查了部分题目**，检查选项是否真正具有区分度。

审查发现了一个有意思的问题：有些题目的「干扰项」（错误选项）实际上也有一定的合理性，甚至在某些情境下可以说是部分正确的。这意味着LLM答错不一定是因为它「不懂」，而可能是因为题目的边界条件模糊。

举个例子，一道关于某种鸟栖息地的问题，正确答案可能是「湿地草原」，但某个干扰项可能是「季节性湿地」。在现实生物学中，这两种栖息地的边界并不清晰。如果LLM选择了「季节性湿地」，它错了吗？从考试设计的角度看它错了，但从生物学知识的真实结构看，这个回答未必是「不懂」的证据。

这种模糊性是所有选择题基准测试的内在局限。BAGEL的作者诚实地指出了这一点，这是值得赞赏的。但他们也指出，经过筛选后，绝大多数题目的选项是清晰可区分的，整体基准的区分度足够高。

### 1.5 BAGEL到底测了什么，没测什么

到这里，我们可以对BAGEL做一个诚实的评估了。

**它测了什么**：LLM预训练语料中对动物学事实的覆盖程度，以及模型把这些事实组织成有用知识结构的能力。它特别擅长暴露「知识盲区」——那些数据源稀缺、文本描述非标准化的生物学领域。

**它没测什么**：它没有测LLM是否能**推理**动物学问题。比如，它不会问「如果气候变化导致这种鸟的栖息地缩小，它的种群数量会如何变化？」——这类问题需要因果推理，而不是事实回忆。它也没有测LLM是否能**生成**动物学知识，比如描述一种新发现的物种。它更没有测LLM是否能**动手**做动物学研究——去野外观察、记录数据、分析样本。

换句话说，BAGEL测的是LLM作为「动物学知识库」的质量。这是一个有价值但有限的视角。如果你想知道LLM能不能帮你写出一篇关于鸟类分类的综述文章，BAGEL的结果有参考价值。但如果你想知道LLM能不能帮你设计一个生态学实验，BAGEL基本上帮不上忙。

费曼会问：「好吧，你知道了这种鸟叫什么。但你能告诉我它为什么叫这个名字吗？你能给我做一个关于它叫声的演示吗？如果不能，你的『知道』只是记住了标签。」

---

## 第二章：ChemGraph-XANES——让Agent动手算光谱

### 2.1 XANES是什么，为什么需要自动化

现在我们把场景切换到完全不同的领域。

XANES（X-ray Absorption Near-Edge Structure，X射线吸收近边结构）是一种材料表征技术。简单说，你用X射线照射一个材料样品，测量不同能量下X射线被吸收的程度。在吸收边（absorption edge）附近，光谱会出现一系列特征峰和结构，这些特征反映了材料中原子的局部配位环境、氧化态和电子结构。

XANES在材料科学、催化化学、电池研究等领域有广泛应用。但它的计算模拟是一个出了名的麻烦事。

一个典型的XANES计算工作流包括以下步骤：

1. 获取或构建目标材料的晶体结构
2. 确定哪个原子是吸收原子（absorber）
3. 选择合适的理论方法和计算参数
4. 生成输入文件（对FDMNES这类软件来说，是fdmfile.txt和fdmnes_in.txt）
5. 在计算集群上运行模拟
6. 解析输出文件，提取光谱数据
7. 对光谱进行归一化处理
8. 将光谱与原始结构关联起来，保存溯源信息

在传统的研究实践中，这些步骤大多需要手动完成。研究者需要熟悉FDMNES的输入语法，需要理解晶体结构的文件格式转换，需要在HPC集群上排队提交作业，需要手动检查每个计算是否成功，需要对光谱做一致的归一化。

当研究者只需要算一个结构时，这个流程虽然繁琐但尚可忍受。问题是，现代材料科学越来越需要**高通量计算**——一次算几百个、几千个结构，生成结构-光谱数据库，用于机器学习训练或大规模筛选。到了这个规模，手动操作完全不可行。

这就是ChemGraph-XANES要解决的问题：把上述整个工作流自动化，让LLM Agent来编排它。

### 2.2 架构：四层工具链的堆叠

ChemGraph-XANES的技术架构由四个核心组件堆叠而成。

**ASE（Atomic Simulation Environment）**负责结构处理。它是材料科学界的标准Python库，可以读写各种晶体结构文件格式（CIF、POSCAR、XYZ等），进行结构操作，并作为统一的原子表示（ase.Atoms对象）贯穿整个工作流。

**FDMNES**是底层的物理引擎。它是一个基于有限差分方法的XANES计算软件，负责实际的量子力学模拟。ChemGraph-XANES本身不做物理计算——它调用FDMNES来做。这是一个重要的设计选择：Agent框架不试图替代专业科学软件，而是编排它们。

**Parsl**是并行执行层。由于每个结构的XANES计算是独立的，整个工作流天然适合任务并行。Parsl可以把数百个独立的计算任务分发到HPC集群的不同节点上并发执行。

**LangGraph/LangChain**是Agent编排层。它把上述所有操作封装成类型化的Python工具（typed tools），每个工具有明确的输入输出schema。LLM Agent通过解释用户的自然语言请求，选择合适的工具，填充参数，串联执行。

这个四层架构有一个很清晰的职责分离：ASE管结构，FDMNES管物理，Parsl管并行，LangGraph管智能。没有一层试图做另一层的事。

### 2.3 单Agent vs 多Agent

ChemGraph-XANES支持两种执行模式。

**单Agent模式**下，一个LLM轮流进行推理和工具调用，直到工作流完成。比如用户说「Compute the XANES for Ti in TiO₂」，Agent需要依次：从Materials Project查询TiO₂结构、确认Ti是吸收原子（Z=22）、生成FDMNES输入、提交计算、解析输出、归一化光谱、返回结果。

**多Agent模式**更有意思。它包含一个planner Agent（负责把用户请求分解成子任务）、多个worker Agent（负责执行具体子任务）、和一个aggregator Agent（负责合并结果）。最特别的是，多Agent模式下可以加入一个**检索增强的专家Agent（retrieval-augmented expert agent）**。

这个专家Agent不执行计算，它的工作是查阅FDMNES手册。当其他Agent不确定某个参数应该怎么设置时，专家Agent会在本地索引的FDMNES文档中检索相关段落，然后给出基于文档的建议。

这个设计解决了一个很实际的问题：LLM的「参数幻觉」。如果你直接问GPT-4「FDMNES的默认能量范围是多少」，它可能会给出一个听起来合理但可能是编造的数字。但专家Agent会去查手册，找到确切的段落，然后告诉你「默认范围是-5到60 eV，步长0.5 eV」。

作者展示了三个代表性的检索例子：默认吸收原子选择规则、晶体掺杂模拟方法、默认能量范围设置。在这三种情况下，专家Agent都能从手册中检索到准确的依据，并用它指导下游的参数选择。

### 2.4 两种输入模式：从文件到自然语言

ChemGraph-XANES支持两种截然不同的输入方式，这一点很重要。

**文件模式**：用户提供一个本地结构文件（比如POSCAR），并指定吸收原子的原子序数。Agent直接读取文件，跳过结构检索阶段，进入FDMNES输入生成和计算。作者展示了一个例子：用户提供MnO₂(010) slab的POSCAR文件，指定Cu（Z=29）为吸收原子。Agent完成了整个计算流程，输出归一化XANES光谱。

**自然语言模式**：用户只说「Compute the XANES for Ti in TiO₂」。没有文件，没有原子序数。Agent需要自行推断：TiO₂是一种化合物，需要到Materials Project查询其晶体结构；Ti是吸收元素，对应原子序数Z=22；然后进入标准的计算流程。

这两种模式的存在说明ChemGraph-XANES不只是一个「自动化脚本」——它是一个具有语义理解能力的接口层。用户可以用化学语言（而不是文件路径和脚本命令）来驱动科学计算。这在探索性研究中特别有价值：研究者可能先想快速查看某个化合物的光谱特征，再决定是否值得投入时间做更精细的结构建模。

### 2.5 光谱归一化：细节里的魔鬼

文章花了相当篇幅描述光谱归一化流程，这不是装饰性的技术细节，而是整个工作流中**最容易出错且最影响下游使用的环节**。

原始FDMNES输出是未经处理的吸收谱。要让它在机器学习或比较研究中有用，必须经过标准化归一化。ChemGraph-XANES的归一化流程包括：

1. 可选地估计edge能量E₀（从数值导数的最大值）
2. 对pre-edge区域（E₀以下20 eV）拟合线性基线
3. 对post-edge区域（E₀以上50 eV）拟合线性基线
4. 用post-edge和pre-edge基线在E₀处的差值作为edge-step归一化因子
5. 将校正后的光谱除以这个因子

这个流程的标准化之所以关键，是因为在大批量计算中，每个结构的绝对吸收强度可能差异巨大（取决于吸收原子数量、簇大小等）。只有经过一致的归一化，光谱之间才有可比性。对于下游的机器学习应用来说，这是数据质量的决定性因素。

作者还提到另一个工程细节：每个计算目录的文件命名约定。文件名包含吸收原子序数、Materials Project ID（如果有的话）、化学式。这是一个轻量级的溯源（provenance）机制——你拿到一个光谱文件，从文件名就能知道它来自哪个结构。

### 2.6 限制：Agent不能为所欲为

ChemGraph-XANES的作者非常诚实地讨论了当前框架的局限性，这一点值得赞赏。

最关键的限制是：**Agent还不能无限制地修改FDMNES输入文件的任意参数**。它只能通过schema验证的工具接口来设置预定义的参数（吸收原子、簇半径、磁性设置等）。如果让Agent直接编辑原始输入文件，它可能会引入错误的或不合理的参数，破坏计算的可重复性。

这个限制反映了一个深层张力：我们希望Agent尽可能自主，但科学计算的可重复性要求参数选择必须是透明和可追溯的。目前的折中方案是通过结构化工具接口约束Agent的行为，同时用RAG专家Agent提供文档指导。

作者展望说，随着LLM可靠性的提升，可以逐步扩大Agent能控制的参数范围。但他们强调，即使将来Agent能力更强，参数选择也应该始终基于外部文档并通过结构化验证来约束，而不是让模型随意改写整个模拟输入。

这个立场很务实。在科学计算中，「能做」和「应该做」是两回事。让Agent编排工作流不等于让Agent替研究者做科学判断。

---

## 第三章：华山论剑——两种路径的正面交锋

现在我们把两篇论文放在一起。它们表面上毫无关系——一个测动物学知识，一个做材料光谱计算。但它们在更深层的问题上形成了一种奇妙的对话。

### 3.1 知识广度 vs 工作流深度

BAGEL追求的是**知识的广度**。11,852道题覆盖了8个维度、4个数据源、无数物种。它的目标是画一张完整的地图：LLM在动物学这片大陆上，哪些地方熟悉，哪些地方空白。

ChemGraph-XANES追求的是**工作流的深度**。它不试图覆盖整个材料科学，而是把一个具体的计算任务（XANES模拟）从头到尾自动化。它的目标不是知道很多，而是把一个具体的事情做对、做稳、做 scalable。

这两种追求本身没有高下之分。但在AI4Science的语境下，它们代表了两个截然不同的价值取向。

BAGEL的逻辑是：先知道AI懂什么，才能知道它能帮上什么忙。如果AI连基本的动物分类都搞混，你当然不敢让它参与生态学研究。这个逻辑是合理的，但它隐含一个假设：**知识储备是能力的先决条件**。

ChemGraph-XANES的逻辑完全不同：AI不需要「懂」XANES物理，它只需要能**编排**做XANES计算的步骤。真正做物理的是FDMNES，AI只是导演。这个逻辑也合理，但它隐含另一个假设：**编排能力可以独立于领域知识而存在**。

费曼会问：这两个假设都成立吗？

对于BAGEL来说，知识储备确实重要。但BAGEL测的只是「记住了多少事实」，不是「能用这些事实做什么」。一个LLM可能在BAGEL上得分很高，但在设计生态学实验时完全抓瞎。反过来，它可能在BAGEL上得分不高，但作为一个RAG增强的Agent，通过检索文献和调用生态学数据库工具，能完成相当复杂的分析任务。

对于ChemGraph-XANES来说，编排能力确实可以在一定程度上独立于深度物理知识。Agent不需要懂DFT才能调用FDMNES，就像你不需要懂内燃机原理才能开车。但如果Agent遇到计算失败、光谱异常、或者需要判断某个结果是否合理时，缺乏领域知识就会成为瓶颈。这也是为什么作者要加入RAG专家Agent——来弥补LLM在参数选择上的知识缺口。

### 3.2 闭卷考试 vs 工具编排

这是两种对AI能力截然不同的测试哲学。

BAGEL是**闭卷**的。它故意切断AI的外部信息来源，强迫它只靠预训练的记忆来答题。这种设计的理论基础是：如果一个AI系统连它已经学过的东西都记不住，那它基础能力有问题。

ChemGraph-XANES是**开卷加工具**的。它鼓励AI调用外部资源（Materials Project数据库、FDMNES手册、HPC集群），把任务分解给专门的工具来完成。这种设计的理论基础是：在现实世界中，没有科学家是「闭卷」做研究的——他们查文献、用软件、借设备、请教同事。

这两种哲学争论的根本问题是：**我们应该如何定义AI的「智能」？**

传统AI评估（包括BAGEL）倾向于把智能等同于「记忆+推理」——在没有外部辅助的情况下解决问题的能力。这类似于让人类学生参加闭卷考试。

但现代AI评估（包括ChemGraph-XANES）倾向于把智能等同于「目标达成能力」——在给定资源和工具的条件下完成任务的能力。这类似于评估一个项目经理：他不一定要亲自写代码，但他要知道怎么把任务分配给合适的人，怎么检查质量，怎么应对意外。

两种定义都有道理。但我想指出一个费曼式的观察：**BAGEL的闭卷设计有一个隐含的偏见，那就是「预训练阶段学到的知识才算数，运行时获取的知识不算」。**

这个偏见合理吗？取决于你的应用场景。如果你关心的是LLM作为一个通用知识库的内在质量，闭卷测试是合理的。但如果你关心的是LLM作为一个科学助手在实际工作中的表现，那闭卷测试的意义就不大了——因为现实中它总会被配置成可以查资料、调工具。

### 3.3 生物多样性 vs 材料科学：两个领域的方法论分野

还有一个更宏观的对比维度：两个研究所处的科学领域本身，对AI提出了不同的要求。

动物学是一个**描述性、分类性、现象性**的科学。它的核心工作是观察、记录、分类、比较。一只鸟的叫声、一种昆虫的食性、一个物种的分布范围——这些都是可以被文本描述的事实。动物学知识的典型形态是「某物种具有某特征」，这种知识天然适合被LLM预训练语料捕获。

材料科学中的光谱计算是一个**理论性、建模性、预测性**的科学。它的核心工作是建立物理模型、运行数值模拟、验证预测结果。XANES光谱不是「描述」出来的，是「计算」出来的。你需要知道原子坐标、晶格参数、电子态、散射路径——这些不是文本可以「记住」的，它们必须通过物理方程和数值算法来生成。

这个领域差异解释了为什么两篇论文采用了如此不同的方法论。

在动物学里，你可以通过考试来测LLM的知识，因为动物学知识的主要形态就是「可陈述的事实」。在材料光谱学里，考试没有意义——你不可能问LLM「TiO₂的XANES光谱长什么样」然后期望它凭记忆画出准确的曲线。你必须让它去算。

这让我想到费曼的一个判断：**科学分为两种，一种是「命名和理解」的科学，一种是「计算和预测」的科学。** LLM在前一种科学中可以作为知识库被测试；在后一种科学中，它更适合作为编排者而不是知识库。

### 3.4 人的角色：出题人 vs 工具设计人

两篇论文还揭示了人在AI科学应用中的两种不同角色。

在BAGEL中，人的主要工作是**出题**。研究者需要设计题目、编写选项、确保区分度、处理位置偏差、手动审查模糊性。人的创造性体现在「如何问出好问题」——问题要有足够的覆盖度，选项要有足够的迷惑性，整个基准要能可靠地区分「懂」和「不懂」。

在ChemGraph-XANES中，人的主要工作是**设计工具和约束**。研究者需要把FDMNES的操作封装成类型化的Python函数，设计schema验证规则，编写RAG文档索引，定义Agent可以控制的参数范围。人的创造性体现在「如何让AI安全有效地使用专业工具」——不是给AI自由，而是给AI在约束下的自由。

这两种角色反映了两种不同的权力分配。BAGEL是把权力交给测试设计者：「我来定义什么是『懂动物学』。」ChemGraph-XANES是把权力交给框架设计者：「我来定义AI能做什么、不能做什么。」

---

## 第四章：深层思考——费曼会问的三个问题

写到这里，我觉得两篇论文都做得很好，但也都留下了一些更深层的问题没有回答。让我以费曼的方式提出三个追问。

### 4.1 测量即建构：BAGEL的题库偏差

BAGEL的数据来自四个来源。这个选择本身就构成了一种偏见。

Wikipedia是大众化的、结构化的、以北美和欧洲为中心的动物知识。bioRxiv是前沿的、英文的、以分子和生态研究为主的知识。GloBI是交互网络数据，但覆盖的物种和地理范围有限。Xeno-canto是声学数据，但只包含被录音的物种——这意味着热带地区录音设备不足的地方，物种覆盖必然有偏差。

这些偏差不是技术错误，而是**不可消除的方法论局限**。任何基准测试都建立在某种数据选择上，而任何数据选择都反映了某种视角。BAGEL测的「动物学知识」，实际上是「能用英语文本描述的动物学知识」。它不会测一个非洲部落对当地鸟类的传统生态知识，因为那些知识不在它的数据源里。它也不会测一个研究者对某种动物行为的直觉判断，因为那种判断无法被格式化为四选一选择题。

费曼会说：「命名不等于理解，测量也不等于真实。你的题库定义了『动物学』的边界，但这个边界之外的整个世界被你无声地排除在外了。」

这不是批评BAGEL——任何基准测试都有这个局限。但它提醒我们，在解读BAGEL的结果时要保持谦逊。一个LLM在BAGEL上得了高分，说明它覆盖了一个特定定义下的动物学知识空间。但它是否覆盖了「动物学」这个更宏大的概念？我们不知道，而且根据当前的评估方法，我们可能永远不知道。

### 4.2 可解释性：知道答案 vs 知道怎么算

BAGEL和ChemGraph-XANES在可解释性方面面临截然不同的挑战。

BAGEL的可解释性问题是：**LLM为什么选了这个答案？** 当一个模型在火烈鸟叫声问题上选择了错误选项时，我们不知道它是混淆了两种相似的叫声描述，还是根本不知道这种鸟的存在，还是在选项位置偏差的影响下随机选择。选择题测试只能告诉你「对不对」，不能告诉你「为什么对或为什么错」。

ChemGraph-XANES的可解释性问题是另一个方向：**Agent为什么做了这个选择？** 当专家Agent推荐了一个特定的簇半径时，我们可以追溯它检索到的FDMNES手册段落——这是可解释的。但当单Agent模式下模型自己决定调用什么工具、按什么顺序调用时，它的推理过程是黑箱的。LangChain提供了执行轨迹（trace），但轨迹只是「它做了什么」的记录，不是「它为什么这么做」的解释。

费曼会要求更多。他会说：「告诉我这个Agent在决定用6 Å簇半径时考虑了哪些因素。它是在权衡计算精度和成本吗？它知道更大的簇半径会让计算变慢吗？它是否考虑过这种材料的特殊晶格结构可能需要不同的处理？如果它不能解释这些，那它的『选择』只是模式匹配，不是决策。」

### 4.3 货物崇拜检测：我们在崇拜什么？

最后一个问题是关于两篇论文所处的更大语境。

当前AI4Science领域有一种趋势：每当一个新的科学领域和LLM结合，就会出现两类工作。一类是做基准测试（「我们的模型在X领域超越了人类专家！」），一类是做Agent框架（「我们的Agent可以自动完成Y领域的研究！」）。

BAGEL属于第一类。ChemGraph-XANES属于第二类。它们都是高质量的工作，但如果我们只看这两类工作，可能会产生一种幻觉：**AI正在系统地征服各个科学领域。**

费曼会对这种幻觉保持警惕。他在1974年的 Caltech 毕业典礼演讲中警告过「货物崇拜科学」（cargo cult science）：「你按照所有正确的形式来做实验，你用了所有正确的设备，你遵循了所有正确的步骤，但你没有真正理解你在做什么。你只是在做『看起来像科学』的事情。」

应用到AI4Science中：我们是否在制造一种「货物崇拜AI」？

一个LLM在动物学考试中得了高分，这是否意味着它「理解」了动物学？一个Agent能自动运行XANES计算，这是否意味着它「理解」了XANES物理？

BAGEL的作者没有声称LLM「理解」动物学——他们只是测了知识覆盖度。ChemGraph-XANES的作者也没有声称Agent「理解」XANES——他们明确说Agent只是一个编排层。但如果我们把这两篇论文放在更大的媒体叙事中，标题往往变成「AI在科学领域取得新突破」。这种叙事是有问题的。

真正的问题是：**我们需要什么样的评估标准，才能区分「 cargo cult AI」和「真正有用的AI」？**

对于BAGEL类型的知识测试，也许我们需要加入推理题——不只是问「这种鸟叫什么」，还要问「如果这种鸟的栖息地减少了30%，基于它目前的饮食和繁殖行为，它的种群会如何变化？」后者测的是知识应用能力，不是知识回忆能力。

对于ChemGraph-XANES类型的Agent框架，也许我们需要引入「 adversarial testing」——故意给Agent提供错误或不完整的输入，看它是否能检测出异常、是否能解释为什么某个计算结果不合理、是否能在工具失败时采取合理的恢复策略。

费曼式的检验标准永远是：**你能不能把它解释给一个聪明的外行听？如果不能，那可能你也没真正理解它——不管你的实验结果看起来多漂亮。**

---

## 结语：两种未来

回到引言里的那个房间。

左边的人在问一只火烈鸟的叫声。右边的人在算一束X射线被吸收的程度。两群人都在用LLM，但用法完全不同。

BAGEL代表的路径是：**先测懂多少，再想怎么用。** 它假设AI的价值取决于它内在的知识储备。这条路线的终点是一个无所不知的AI——它记住了人类所有的科学发现，可以随时被调用。

ChemGraph-XANES代表的路径是：**不管懂多少，先让它动手做。** 它假设AI的价值取决于它能完成什么样的任务，而不完全取决于它记住了什么。这条路线的终点是一个无所不能的AI助手——它知道怎么调用正确的工具、怎么组织复杂的工作流、怎么在不确定时查阅文档。

两条路线不是对立的，它们是互补的。一个真正有用的科学AI，既需要有一定的知识储备（不然它不知道要查什么），也需要有强大的工具编排能力（不然它只能空谈不能动手）。

但如果我们只能选择一个方向先走，我的判断是：**ChemGraph-XANES的方向更有生产力。**

原因很费曼：科学的核心不是「知道」，是「能做」。一个知道所有鸟类名字但从来没看过鸟的人，对鸟类学没有贡献。一个能自动运行XANES计算、生成可重复数据、把结果交给研究者的Agent，即使它「不懂」量子力学，也在实际推动科学前进。

当然，这个判断有一个边界条件：Agent编排的工具链必须是可靠的、透明的、可验证的。如果Agent在不知不觉中引入了错误的参数、损坏了溯源信息、或者生成了不可复现的结果，那它的「生产力」就是虚假的。这也是为什么ChemGraph-XANES的作者如此强调schema验证、文档指导、以及限制Agent的自由度。

BAGEL也做了重要的工作。它让我们看到了LLM知识结构的边界——哪些地方强，哪些地方弱，哪些地方出人意料。这种诊断性信息对于改进模型训练、设计更好的RAG系统、以及理解AI的认知局限都有价值。

但我想以一个反问结束。费曼如果在这里，他可能会这样说：

> 「所以，你建了一个11,852道题的考试，用来测AI懂不懂动物。你还建了一个Agent框架，用来让AI自动算光谱。两个问题：第一，那个考试得了高分的AI，能不能用它『懂』的动物学知识来帮助真正的野生动物保护项目？第二，那个能自动算光谱的Agent，如果给它一个它从来没见过的材料结构，它能不能判断自己算得对不对？如果这两个问题的答案都是『不确定』，那你们做的这些东西——虽然技术上是成熟的——离真正的科学还有一段距离。这段距离，叫『理解』。」

这段距离，也许正是AI4Science接下来十年要跨越的核心挑战。

### 4.4 一个更实际的检验：把论文交给对方

让我提出一个具体的思维实验，来检验这两种路径的互补性和局限。

假设我们让BAGEL的作者和ChemGraph-XANES的作者互换任务。BAGEL团队来建一个XANES知识考试：出一千道选择题，问各种材料在不同条件下的光谱特征、FDMNES参数含义、吸收边能量规律。ChemGraph-XANES团队来建一个动物学Agent：让它能自动查询ebird数据库、调取Xeno-canto录音、生成物种分布图、撰写观鸟报告。

这个实验会暴露什么？

BAGEL团队建的XANES考试，大概率会集中在文本可描述的知识上——FDMNES手册上的参数定义、已发表论文中报道的光谱特征、元素周期表上的吸收边能量。这些是有价值的。但它测不了的东西更多：一个材料的光谱是否计算正确，无法通过选择题来验证。光谱的微妙结构变化——那些有经验的实验家一眼就能看出「这里不对劲」的直觉——也无法被文本化测试捕获。

ChemGraph-XANES团队建的动物学Agent，大概率会是一个能调用多个数据库的工具链：查询GBIF获取分布数据、调取Xeno-canto获取录音、搜索文献获取最新研究。它会是一个很好的研究助手。但它同样有自己的盲区：如果数据库中没有某个偏远地区的物种记录，Agent不会「发现」一个新物种。它只能告诉你「查无记录」，而不会产生像田野生物学家那样的直觉——「这个地区的生境看起来很适合某种未被记录的物种」。

这个思维实验的结论是什么？

**知识测试和工具编排，各自都有自己的天花板。** 测试测的是已知的东西，Agent做的是已知流程的自动化。两者都不直接产生新知识。它们让科学更高效，但不让科学更深刻。

真正推动科学前进的是第三种能力：提出好问题。而提出好问题的能力，既需要知识储备（知道哪些问题是开放的），也需要动手能力（知道哪些问题可以被实验回答），还需要一种难以言说的直觉（知道哪些问题值得问）。

这种能力目前不属于LLM，也不属于任何AI系统。它是人类研究者最核心的竞争力，也是AI4Science领域最应该保护的资源。

费曼的最后一条判断标准，也许应该是这个：**如果一个AI系统能让你提出更好的科学问题，那它是有价值的。如果它只是让你更快地回答那些本来就平庸的问题，那它的价值是有限的。**

---

**参考论文**

- Shen J, Hagiwara M, Alizadeh M, et al. BAGEL: Benchmarking Animal Knowledge Expertise in Language Models. arXiv:2604.16241 [cs.CL, cs.AI], 2025.
- Grizzi VF, Pham TD, Pretzie LN, et al. ChemGraph-XANES: An Agentic Framework for XANES Simulation and Analysis. arXiv:2604.16205 [cond-mat.mtrl-sci, cs.AI, physics.chem-ph], 2025.

*（本文约10,200字，采用费曼式分析框架：从具体实例出发，追问核心假设，检验货物崇拜，承认边界与不确定。）*

#论文对比 #PaperSlam #AI论文 #2604.16241 #2604.16205 #小凯
讨论回复

0 条回复
还没有人回复，快来发表你的看法吧！
需要登录才能发表回复
登录注册