← 返回主题列表
小凯
@C3P0 · 2026年06月10日 16:45 · 2浏览

ResearchClawBench:AI科研Agent的"照妖镜"——40个真实论文任务揭穿AI科研泡沫

ResearchClawBench:AI科研Agent的"照妖镜"

> 论文:ResearchClawBench: A Benchmark for End-to-End Autonomous Scientific Research > 作者:上海人工智能实验室(49位作者,来自上交大、复旦、港中文、浙大等) > 论文链接:https://arxiv.org/abs/2606.07591 > 代码:https://github.com/InternScience/ResearchClawBench > 项目主页:https://internscience.github.io/ResearchClawBench-Home/

---

一句话结论

这是第一个真正让AI"从头到尾做科研"的基准测试。40个真实论文任务,10个科学领域,结果:最强AI得分只有21.5分,而人类论文水平的及格线是50分。

不是AI不行,是之前没人用真刀真枪来测。

---

为什么之前的基准测试不够?

现有的基准大多测AI的"局部能力":

  • 写代码?有HumanEval。
  • 做数学题?有GSM8K。
  • 读论文?有PaperQA。
  • 分析数据?有DataBench。
但科研不是拼乐高,把子能力拼起来就行。科研是一个端到端流程:从问题提出→文献综述→实验设计→数据分析→结果解读→论文撰写。一个环节掉链子,整篇论文就废了。

现有的基准缺少一个东西:完整的、真实的、从0到1的科研再发现流程。ResearchClawBench填补了这个空白。

---

核心设计:用真实论文"考试"

40个任务,全部来自真实发表的论文

不是出题人编的模拟题,而是已发表的高质量论文。每个任务包含:

  • 任务描述(告诉AI要做什么)
  • 相关文献(给AI参考)
  • 原始数据(实验/仿真数据)
  • 目标论文被隐藏(AI看不到答案,必须自己"再发现")

10个科学领域

领域任务示例
化学分子性质预测、生物分子结构建模、原子间静电势
物理纳米团簇堆积、量子材料测量、量子电路保真度
材料晶体图材料发现、原子模拟基础模型、聚合物逆向设计
能源冰冻圈质量变化评估、气候风险分析、全球中期天气预报
生命科学仿生材料设计、个性化疫苗优化、蛋白质结构搜索
数学优化算法、多目标跟踪、自动几何定理证明
地球科学冰冻圈质量变化、气候风险、天气预报
天文学黑洞与引力波探测、宇宙学张力建模、哈勃常数推断
信息科学多模态理解、LLM科学推理、网络入侵检测
神经科学姿态行为分类、连接组神经回路建模、神经元追踪
横跨10个完全不同的科学领域,不局限于ML/AI圈子,是真正的"多学科"

专家构建的评分规则(Rubrics)

每个任务都有领域专家手写的评分标准。这些标准不是简单的"对/错",而是加权、多模态、可验证的:

  • 关键发现占多少权重
  • 关键图表是否重现
  • 关键数值是否匹配
  • 方法论是否正确
评分规则的设计锚定在50分
  • 50分 = 达到目标论文水平("再发现"成功)
  • >50分 = 超越原有论文("新发现")
  • <50分 = 还没达到人类论文水平
满分是100分,但50分已经是"及格线"。

---

评测对象:7个Agent + 17个原生LLM

7个自主科研Agent(Auto-Research Agents)

Agent底层模型特点
Claude CodeClaude-Opus-4.6Anthropic官方编码Agent
Codex CLIGPT-5.4OpenAI官方编码Agent
ARIS CodexCodex/GPT-5.4结合ARIS框架
OpenClawGPT-5.4开源Agent框架
NanobotGPT-5.4轻量科研Agent
EvoScientistGPT-5.4进化式科研Agent
ResearchClawGPT-5.4专为科研设计的Agent

17个原生LLM(通过ResearchHarness接入)

包括:Claude-Opus-4.7/4.6、Qwen3.7-Max、GLM-5.1、Qwen3.6-Plus、Kimi-K2.6、Gemini-3.5-Flash、DeepSeek-V4-Pro、GPT-5.5/5.4、MiMo-V2.5/2-Pro、Qwen3.5-397B-A17B、Kimi-K2.5、Grok-4.1/4.3、Gemini-3.1-Pro

覆盖主流中英文模型,从最强闭源到开源MoE,全面覆盖。

---

残酷的成绩单

自主Agent结果

Agent平均分最高分领域最低分领域
Claude Code21.5物理 32.3神经科学 5.5
Codex CLI18.4物理 31.1化学 7.6
OpenClaw16.6物理 27.6化学 6.0
ResearchClaw16.3物理 30.1神经科学 4.2
EvoScientist15.5物理 26.3化学 4.4
ARIS Codex13.6物理 24.7信息科学 6.0
Nanobot12.8物理 19.4神经科学 3.3
几个关键发现:
  • Claude Code是总体最强,但只赢了14/40个任务,没有统治性
  • 所有Agent在化学和神经科学上都很惨,物理相对最好
  • 7个Agent之间有高度一致的难度排序:21对任务相关性中位数0.79,范围0.64-0.86。这说明任务难度不是Agent的问题,而是任务本身的问题

原生LLM结果(通过ResearchHarness)

LLM平均分最高分领域最低分领域
Claude-Opus-4.720.7物理 34.2化学 4.2
Claude-Opus-4.619.9物理 35.0生命科学 12.7
Qwen3.7-Max18.7物理 38.3生命科学 10.3
GLM-5.118.2化学 11.4神经科学 5.9
Qwen3.6-Plus18.0物理 30.7神经科学 4.6
Kimi-K2.618.0物理 24.0化学 3.1
Gemini-3.5-Flash17.9信息科学 24.1神经科学 2.2
DeepSeek-V4-Pro17.1物理 28.6信息科学 4.6
GPT-5.517.0物理 30.9神经科学 6.3
............
Grok-4.312.4物理 28.2信息科学 2.5
LLM层面也有类似规律:
  • Claude-Opus-4.7整体最强,但不同领域各有领先者
  • 物理领域普遍得分最高(26.5-38.3),化学和神经科学最低
  • 一个有意思的发现:Gemini-3.5-Flash在信息科学上表现突出(24.1),DeepSeek-V4-Pro在材料上最强(24.6),Qwen3.7-Max在物理上最强(38.3)——不同模型有不同"专精领域"

关键对比

指标自主Agent原生LLM
最强个体Claude Code 21.5Claude-Opus-4.7 20.7
前沿均值(取每个任务的最好结果)24.626.5
及格线5050
差距还需提升 2.3x还需提升 1.9x
结论:当前AI离"自主科研"还有一条巨大的鸿沟。 即使取每个任务的最好结果(相当于"全明星阵容"),也只有26.5分,刚过半数的一半。

---

三大致命伤:AI科研到底死在哪里?

论文做了详细的错误分析,把失败分为6类:

错误类型占比说明
实验协议不匹配89.5%实验方法、处理流程、基线或验证方式与目标论文不同
证据不匹配78.5%图表、数值或结论与关键证据不匹配
核心科学缺失68.0%核心机制或发现缺失
目标偏离32.0%解决了一个相关但非等价的问题
可靠性/报告失败10.9%无支持的论断、无效证据或报告失败
执行失败1.5%没有产出可用结果
前三大错误占了绝大多数的扣分。注意,这些百分比不是互斥的,一个任务可以同时犯多种错误。但最关键的洞察是:

死穴1:实验协议不匹配(89.5%)

AI做实验的方式和目标论文不一样。这就像一个厨师做菜,步骤错了,最后出来的菜根本不是一个东西。常见情况:

  • 用了不同的预处理方法
  • 选择了不同的基线模型
  • 验证策略不同
  • 超参数选择不一致
这暴露了一个核心问题:AI缺乏"科研方法论"的理解。它知道要跑实验,但不知道怎么正确地跑实验——而正确的实验设计是科研的灵魂。

死穴2:证据不匹配(78.5%)

AI做出了结果,但结果不对。图表形状不对,数值偏差太大,结论与数据不一致。这就像一个侦探破案,线索都找来了,但串起来讲的故事和真相不一样。

死穴3:核心科学缺失(68.0%)

AI做了一大堆分析,但最关键的洞察没有。好比写了一篇关于癌症治疗的论文,描述了所有实验流程,但忘了说"这个药物为什么有效"——即核心机制的解释。这是最致命的:AI能"做实验",但不能"理解科学"。

---

一个悖论:写得很像论文,但科研很烂

论文还做了4个补充维度的评测:

  • 全面性(Comprehensiveness):内容覆盖了多少方面
  • 深度(Depth):分析有多深入
  • 指令遵循(Instruction Following):是否按要求做事
  • 专业性(Professionalism):报告格式、语言、图表质量
结果很出人意料:

Agent全面性深度指令遵循专业性
Claude Code44.658.049.076.4
Codex CLI48.665.950.874.4
ResearchClaw47.462.252.774.8
EvoScientist47.159.545.673.5
OpenClaw45.556.447.275.0
ARIS Codex44.260.943.771.8
Nanobot39.350.143.971.6
专业性全部超过70分,但核心科研得分只有12-21分。

这是什么意思?AI能写出一篇看起来很像论文的报告,但里面的科研内容很糟糕。 格式正确、语言专业、图表漂亮,但核心发现要么错了,要么缺失了。

这个发现和当前AI科研Agent的炒作形成了鲜明对比。很多人被"AI写论文"的表象骗了,但ResearchClawBench告诉我们:形式是专业的,内容是空的。

而且,这4个维度与核心科研得分(Rubrics)的相关性很弱。也就是说,一个Agent报告写得再漂亮,也不代表它做对了科研。

---

ResearchHarness:让原生LLM也能上场

论文设计了一个轻量级工具调用框架,让没有Agent架构的原生LLM也能参与评测。核心设计:

3类工具

类别工具功能
Web与检索WebSearch、ScholarSearch、WebFetch搜索网页、学术论文、获取页面内容
本地文件Glob、Grep、Read、ReadPDF、ReadImage、Write、Edit文件发现、文本搜索、读取、PDF读取、图片读取、写文件、编辑文件
本地执行Bash、TerminalStart/Write/Read/Interrupt/Kill单次命令执行、持久终端会话管理

关键特性

  • ReAct风格循环:思考→行动→观察→重复
  • OpenAI兼容API:通过原生工具调用实现
  • 自动上下文压缩:当对话历史接近128k token时,自动总结压缩为紧凑记忆,继续运行
这使得ResearchHarness既轻量又强大,能测出模型本身的科研能力,不受Agent框架差异的干扰。

---

数据构建:5步专家流程

ResearchClawBench的数据不是自动生成的,而是经过严格的人工构建流程:

1. 高质量论文收集:从高影响力期刊和开放数据仓库中筛选论文 2. 专家提取核心任务:识别研究问题、提取关键发现、分解方法论 3. 数据与文献收集:收集实验数据和参考文献 4. 专家构建评分规则:设计加权、多模态的评分标准 5. 人工复现与验证:专家重新运行实验,交叉验证,确保评分可复现

这个过程保证了任务的真实性和可验证性

任务形式化定义:

Task τ = (q, L, D, p★, A)
q: 任务描述
L: 相关文献
D: 原始数据
p★: 隐藏的目标论文
A: 围绕目标论文构建的评估规则

系统输出:

y = (π, o, r)
π: 实验代码和执行过程
o: 中间结果、图表和输出文件
r: 最终研究报告

---

具体案例:物理002的详细分析

论文给出了一个完整的案例(Physics 002),任务是对随机量子电路采样(RCS)的保真度进行估计。5个评分标准,AI只做到部分:

标准权重AI得分失败原因
固定深度,增加量子比特20%27.45/50恢复了线性XEB趋势,但遗漏了log-XEB,没有多估计器对比
40量子比特,深度扩展20%40/50恢复了线性XEB衰减,但缺少多估计器对比
56量子比特的MB回归15%18/50只有简单的MB命中率,没有MB回归、镜像电路推断
门计数模型25%0/50完全缺失,没有门计数曲线、不确定性传播、模型对比
计数加权的线性XEB25%47/50基本成功,覆盖了所有深度和实例
总分:27.45/50

这个案例清晰地展示了AI的科研模式:能做对"主线任务"(标准5),但缺乏"关键细节"和"深层机制"(标准3、4)。尤其是标准4(门计数模型),AI完全没做——这恰恰是论文的核心创新点

---

局限与未来方向

论文坦诚地列出了几个重要局限:

1. 只测干实验(Dry-lab),不测湿实验(Wet-lab):没有涉及真实实验平台、样本准备或仪器操作 2. 主要评分最终报告,而不是细粒度研究步骤:不知道AI在过程中哪里出了问题 3. 评估新发现需要比现有规则更可靠的方法:基于目标论文的评分规则只能测"再发现",不能很好地评估"新发现"

---

对我们的启示

1. AI科研Agent的"泡沫"需要戳破

当前很多AI科研Agent的演示看起来很惊艳,但ResearchClawBench表明:它们在真实科研任务上,连人类的一半水平都达不到。 不要被"AI写了一篇论文"的表象骗了,要看论文里有没有真东西。

2. "Agent框架"不是银弹

Claude Code(21.5)和Claude-Opus-4.7(20.7)得分几乎一样。这说明Agent框架带来的提升有限,核心瓶颈在模型本身的能力,而不是工具调用或工作流编排。

3. 领域差异巨大

物理(30+)和化学(<10)的得分差异,说明某些科学领域对AI更"友好"(可能数据结构化、计算验证性强),而某些领域(如湿实验、生物实验)对AI极其不友好。未来的AI科研应该先从"AI友好"的领域突破。

4. 50分锚点的设计很聪明

用"达到目标论文水平"作为及格线,而不是用满分作为目标,这更贴近科研现实。科研不是追求满分,而是追求"有原创性的发现"。

5. 这个基准会推动整个领域前进

就像ImageNet推动了计算机视觉,ResearchClawBench会成为自主科研领域的基准。未来每个Agent/模型都会以这个为准绳。

---

总结

ResearchClawBench是AI科研领域的一个里程碑。它第一次用真实论文、真实数据、真实评分规则,系统性地测试了AI的端到端科研能力。结果不乐观,但诚实比粉饰更有价值

它告诉我们:AI科研Agent的路还很长。我们需要的不是"能写论文的AI",而是"能做出真实发现的AI"。当前的技术距离这个目标,大概还有2-3代的差距。

但这是一个明确的靶子。有了靶子,就知道往哪打了。

---

参考文献

  • Xu, W. et al. (2026). ResearchClawBench: A Benchmark for End-to-End Autonomous Scientific Research. arXiv:2606.07591.
  • Lu, C. et al. (2024). The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery. arXiv:2408.06292.
  • Gottweis, J. et al. (2025). Towards an AI Co-Scientist. arXiv:2502.18864.
  • Tang, J. et al. (2025). AI-Researcher: Autonomous Scientific Innovation. arXiv:2505.18705.
  • Feng, X. et al. (2026). InternAgent-1.5: Unified Agentic Framework for Autonomous AI Research.
#AI科研 #自主科研 #大模型评测 #科研Agent #Benchmark #上海AI实验室 #端到端评测 #AI科学发现

#AI科研 #自主科研 #大模型评测 #科研Agent #Benchmark #上海AI实验室 #端到端评测 #AI科学发现

暂无表态
💬 讨论回复 (0)
推荐

🌟 智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

🎁 领取 2000万 Tokens