ResearchClawBench：AI科研Agent的"照妖镜"

> 论文：ResearchClawBench: A Benchmark for End-to-End Autonomous Scientific Research > 作者：上海人工智能实验室（49位作者，来自上交大、复旦、港中文、浙大等） > 论文链接：https://arxiv.org/abs/2606.07591 > 代码：https://github.com/InternScience/ResearchClawBench > 项目主页：https://internscience.github.io/ResearchClawBench-Home/

---

一句话结论

这是第一个真正让AI"从头到尾做科研"的基准测试。40个真实论文任务，10个科学领域，结果：最强AI得分只有21.5分，而人类论文水平的及格线是50分。

不是AI不行，是之前没人用真刀真枪来测。

---

为什么之前的基准测试不够？

现有的基准大多测AI的"局部能力"：

写代码？有HumanEval。
做数学题？有GSM8K。
读论文？有PaperQA。
分析数据？有DataBench。

但科研不是拼乐高，把子能力拼起来就行。科研是一个端到端流程：从问题提出→文献综述→实验设计→数据分析→结果解读→论文撰写。一个环节掉链子，整篇论文就废了。

现有的基准缺少一个东西：完整的、真实的、从0到1的科研再发现流程。ResearchClawBench填补了这个空白。

---

核心设计：用真实论文"考试"

40个任务，全部来自真实发表的论文

不是出题人编的模拟题，而是已发表的高质量论文。每个任务包含：

任务描述（告诉AI要做什么）
相关文献（给AI参考）
原始数据（实验/仿真数据）
目标论文被隐藏（AI看不到答案，必须自己"再发现"）

10个科学领域

领域	任务示例
化学	分子性质预测、生物分子结构建模、原子间静电势
物理	纳米团簇堆积、量子材料测量、量子电路保真度
材料	晶体图材料发现、原子模拟基础模型、聚合物逆向设计
能源	冰冻圈质量变化评估、气候风险分析、全球中期天气预报
生命科学	仿生材料设计、个性化疫苗优化、蛋白质结构搜索
数学	优化算法、多目标跟踪、自动几何定理证明
地球科学	冰冻圈质量变化、气候风险、天气预报
天文学	黑洞与引力波探测、宇宙学张力建模、哈勃常数推断
信息科学	多模态理解、LLM科学推理、网络入侵检测
神经科学	姿态行为分类、连接组神经回路建模、神经元追踪

横跨10个完全不同的科学领域，不局限于ML/AI圈子，是真正的"多学科"

专家构建的评分规则（Rubrics）

每个任务都有领域专家手写的评分标准。这些标准不是简单的"对/错"，而是加权、多模态、可验证的：

关键发现占多少权重
关键图表是否重现
关键数值是否匹配
方法论是否正确

评分规则的设计锚定在50分：

50分 = 达到目标论文水平（"再发现"成功）
>50分 = 超越原有论文（"新发现"）
<50分 = 还没达到人类论文水平

满分是100分，但50分已经是"及格线"。

---

评测对象：7个Agent + 17个原生LLM

7个自主科研Agent（Auto-Research Agents）

Agent	底层模型	特点
Claude Code	Claude-Opus-4.6	Anthropic官方编码Agent
Codex CLI	GPT-5.4	OpenAI官方编码Agent
ARIS Codex	Codex/GPT-5.4	结合ARIS框架
OpenClaw	GPT-5.4	开源Agent框架
Nanobot	GPT-5.4	轻量科研Agent
EvoScientist	GPT-5.4	进化式科研Agent
ResearchClaw	GPT-5.4	专为科研设计的Agent

17个原生LLM（通过ResearchHarness接入）

包括：Claude-Opus-4.7/4.6、Qwen3.7-Max、GLM-5.1、Qwen3.6-Plus、Kimi-K2.6、Gemini-3.5-Flash、DeepSeek-V4-Pro、GPT-5.5/5.4、MiMo-V2.5/2-Pro、Qwen3.5-397B-A17B、Kimi-K2.5、Grok-4.1/4.3、Gemini-3.1-Pro

覆盖主流中英文模型，从最强闭源到开源MoE，全面覆盖。

---

残酷的成绩单

自主Agent结果

Agent	平均分	最高分领域	最低分领域
Claude Code	21.5	物理 32.3	神经科学 5.5
Codex CLI	18.4	物理 31.1	化学 7.6
OpenClaw	16.6	物理 27.6	化学 6.0
ResearchClaw	16.3	物理 30.1	神经科学 4.2
EvoScientist	15.5	物理 26.3	化学 4.4
ARIS Codex	13.6	物理 24.7	信息科学 6.0
Nanobot	12.8	物理 19.4	神经科学 3.3

几个关键发现：

Claude Code是总体最强，但只赢了14/40个任务，没有统治性
所有Agent在化学和神经科学上都很惨，物理相对最好
7个Agent之间有高度一致的难度排序：21对任务相关性中位数0.79，范围0.64-0.86。这说明任务难度不是Agent的问题，而是任务本身的问题

原生LLM结果（通过ResearchHarness）

LLM	平均分	最高分领域	最低分领域
Claude-Opus-4.7	20.7	物理 34.2	化学 4.2
Claude-Opus-4.6	19.9	物理 35.0	生命科学 12.7
Qwen3.7-Max	18.7	物理 38.3	生命科学 10.3
GLM-5.1	18.2	化学 11.4	神经科学 5.9
Qwen3.6-Plus	18.0	物理 30.7	神经科学 4.6
Kimi-K2.6	18.0	物理 24.0	化学 3.1
Gemini-3.5-Flash	17.9	信息科学 24.1	神经科学 2.2
DeepSeek-V4-Pro	17.1	物理 28.6	信息科学 4.6
GPT-5.5	17.0	物理 30.9	神经科学 6.3
...	...	...	...
Grok-4.3	12.4	物理 28.2	信息科学 2.5

LLM层面也有类似规律：

Claude-Opus-4.7整体最强，但不同领域各有领先者
物理领域普遍得分最高（26.5-38.3），化学和神经科学最低
一个有意思的发现：Gemini-3.5-Flash在信息科学上表现突出（24.1），DeepSeek-V4-Pro在材料上最强（24.6），Qwen3.7-Max在物理上最强（38.3）——不同模型有不同"专精领域"

关键对比

指标	自主Agent	原生LLM
最强个体	Claude Code 21.5	Claude-Opus-4.7 20.7
前沿均值（取每个任务的最好结果）	24.6	26.5
及格线	50	50
差距	还需提升 2.3x	还需提升 1.9x

结论：当前AI离"自主科研"还有一条巨大的鸿沟。 即使取每个任务的最好结果（相当于"全明星阵容"），也只有26.5分，刚过半数的一半。

---

三大致命伤：AI科研到底死在哪里？

论文做了详细的错误分析，把失败分为6类：

错误类型	占比	说明
实验协议不匹配	89.5%	实验方法、处理流程、基线或验证方式与目标论文不同
证据不匹配	78.5%	图表、数值或结论与关键证据不匹配
核心科学缺失	68.0%	核心机制或发现缺失
目标偏离	32.0%	解决了一个相关但非等价的问题
可靠性/报告失败	10.9%	无支持的论断、无效证据或报告失败
执行失败	1.5%	没有产出可用结果

前三大错误占了绝大多数的扣分。注意，这些百分比不是互斥的，一个任务可以同时犯多种错误。但最关键的洞察是：

死穴1：实验协议不匹配（89.5%）

AI做实验的方式和目标论文不一样。这就像一个厨师做菜，步骤错了，最后出来的菜根本不是一个东西。常见情况：

用了不同的预处理方法
选择了不同的基线模型
验证策略不同
超参数选择不一致

这暴露了一个核心问题：AI缺乏"科研方法论"的理解。它知道要跑实验，但不知道怎么正确地跑实验——而正确的实验设计是科研的灵魂。

死穴2：证据不匹配（78.5%）

AI做出了结果，但结果不对。图表形状不对，数值偏差太大，结论与数据不一致。这就像一个侦探破案，线索都找来了，但串起来讲的故事和真相不一样。

死穴3：核心科学缺失（68.0%）

AI做了一大堆分析，但最关键的洞察没有。好比写了一篇关于癌症治疗的论文，描述了所有实验流程，但忘了说"这个药物为什么有效"——即核心机制的解释。这是最致命的：AI能"做实验"，但不能"理解科学"。

---

一个悖论：写得很像论文，但科研很烂

论文还做了4个补充维度的评测：

全面性（Comprehensiveness）：内容覆盖了多少方面
深度（Depth）：分析有多深入
指令遵循（Instruction Following）：是否按要求做事
专业性（Professionalism）：报告格式、语言、图表质量

结果很出人意料：

Agent	全面性	深度	指令遵循	专业性
Claude Code	44.6	58.0	49.0	76.4
Codex CLI	48.6	65.9	50.8	74.4
ResearchClaw	47.4	62.2	52.7	74.8
EvoScientist	47.1	59.5	45.6	73.5
OpenClaw	45.5	56.4	47.2	75.0
ARIS Codex	44.2	60.9	43.7	71.8
Nanobot	39.3	50.1	43.9	71.6

专业性全部超过70分，但核心科研得分只有12-21分。

这是什么意思？AI能写出一篇看起来很像论文的报告，但里面的科研内容很糟糕。 格式正确、语言专业、图表漂亮，但核心发现要么错了，要么缺失了。

这个发现和当前AI科研Agent的炒作形成了鲜明对比。很多人被"AI写论文"的表象骗了，但ResearchClawBench告诉我们：形式是专业的，内容是空的。

而且，这4个维度与核心科研得分（Rubrics）的相关性很弱。也就是说，一个Agent报告写得再漂亮，也不代表它做对了科研。

---

ResearchHarness：让原生LLM也能上场

论文设计了一个轻量级工具调用框架，让没有Agent架构的原生LLM也能参与评测。核心设计：

3类工具

类别	工具	功能
Web与检索	WebSearch、ScholarSearch、WebFetch	搜索网页、学术论文、获取页面内容
本地文件	Glob、Grep、Read、ReadPDF、ReadImage、Write、Edit	文件发现、文本搜索、读取、PDF读取、图片读取、写文件、编辑文件
本地执行	Bash、TerminalStart/Write/Read/Interrupt/Kill	单次命令执行、持久终端会话管理

关键特性

ReAct风格循环：思考→行动→观察→重复
OpenAI兼容API：通过原生工具调用实现
自动上下文压缩：当对话历史接近128k token时，自动总结压缩为紧凑记忆，继续运行

这使得ResearchHarness既轻量又强大，能测出模型本身的科研能力，不受Agent框架差异的干扰。

---

数据构建：5步专家流程

ResearchClawBench的数据不是自动生成的，而是经过严格的人工构建流程：

1. 高质量论文收集：从高影响力期刊和开放数据仓库中筛选论文 2. 专家提取核心任务：识别研究问题、提取关键发现、分解方法论 3. 数据与文献收集：收集实验数据和参考文献 4. 专家构建评分规则：设计加权、多模态的评分标准 5. 人工复现与验证：专家重新运行实验，交叉验证，确保评分可复现

这个过程保证了任务的真实性和可验证性。

任务形式化定义：

Task τ = (q, L, D, p★, A)
q: 任务描述
L: 相关文献
D: 原始数据
p★: 隐藏的目标论文
A: 围绕目标论文构建的评估规则

系统输出：

y = (π, o, r)
π: 实验代码和执行过程
o: 中间结果、图表和输出文件
r: 最终研究报告

---

具体案例：物理002的详细分析

论文给出了一个完整的案例（Physics 002），任务是对随机量子电路采样（RCS）的保真度进行估计。5个评分标准，AI只做到部分：

标准	权重	AI得分	失败原因
固定深度，增加量子比特	20%	27.45/50	恢复了线性XEB趋势，但遗漏了log-XEB，没有多估计器对比
40量子比特，深度扩展	20%	40/50	恢复了线性XEB衰减，但缺少多估计器对比
56量子比特的MB回归	15%	18/50	只有简单的MB命中率，没有MB回归、镜像电路推断
门计数模型	25%	0/50	完全缺失，没有门计数曲线、不确定性传播、模型对比
计数加权的线性XEB	25%	47/50	基本成功，覆盖了所有深度和实例

总分：27.45/50

这个案例清晰地展示了AI的科研模式：能做对"主线任务"（标准5），但缺乏"关键细节"和"深层机制"（标准3、4）。尤其是标准4（门计数模型），AI完全没做——这恰恰是论文的核心创新点。

---

局限与未来方向

论文坦诚地列出了几个重要局限：

1. 只测干实验（Dry-lab），不测湿实验（Wet-lab）：没有涉及真实实验平台、样本准备或仪器操作 2. 主要评分最终报告，而不是细粒度研究步骤：不知道AI在过程中哪里出了问题 3. 评估新发现需要比现有规则更可靠的方法：基于目标论文的评分规则只能测"再发现"，不能很好地评估"新发现"

---

对我们的启示

1. AI科研Agent的"泡沫"需要戳破

当前很多AI科研Agent的演示看起来很惊艳，但ResearchClawBench表明：它们在真实科研任务上，连人类的一半水平都达不到。 不要被"AI写了一篇论文"的表象骗了，要看论文里有没有真东西。

2. "Agent框架"不是银弹

Claude Code（21.5）和Claude-Opus-4.7（20.7）得分几乎一样。这说明Agent框架带来的提升有限，核心瓶颈在模型本身的能力，而不是工具调用或工作流编排。

3. 领域差异巨大

物理（30+）和化学（<10）的得分差异，说明某些科学领域对AI更"友好"（可能数据结构化、计算验证性强），而某些领域（如湿实验、生物实验）对AI极其不友好。未来的AI科研应该先从"AI友好"的领域突破。

4. 50分锚点的设计很聪明

用"达到目标论文水平"作为及格线，而不是用满分作为目标，这更贴近科研现实。科研不是追求满分，而是追求"有原创性的发现"。

5. 这个基准会推动整个领域前进

就像ImageNet推动了计算机视觉，ResearchClawBench会成为自主科研领域的基准。未来每个Agent/模型都会以这个为准绳。

---

总结

ResearchClawBench是AI科研领域的一个里程碑。它第一次用真实论文、真实数据、真实评分规则，系统性地测试了AI的端到端科研能力。结果不乐观，但诚实比粉饰更有价值。

它告诉我们：AI科研Agent的路还很长。我们需要的不是"能写论文的AI"，而是"能做出真实发现的AI"。当前的技术距离这个目标，大概还有2-3代的差距。

但这是一个明确的靶子。有了靶子，就知道往哪打了。

---

参考文献

Xu, W. et al. (2026). ResearchClawBench: A Benchmark for End-to-End Autonomous Scientific Research. arXiv:2606.07591.
Lu, C. et al. (2024). The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery. arXiv:2408.06292.
Gottweis, J. et al. (2025). Towards an AI Co-Scientist. arXiv:2502.18864.
Tang, J. et al. (2025). AI-Researcher: Autonomous Scientific Innovation. arXiv:2505.18705.
Feng, X. et al. (2026). InternAgent-1.5: Unified Agentic Framework for Autonomous AI Research.

#AI科研 #自主科研 #大模型评测 #科研Agent #Benchmark #上海AI实验室 #端到端评测 #AI科学发现