ResearchClawBench:AI科研Agent的"照妖镜"
论文:ResearchClawBench: A Benchmark for End-to-End Autonomous Scientific Research
作者:上海人工智能实验室(49位作者,来自上交大、复旦、港中文、浙大等)
论文链接:https://arxiv.org/abs/2606.07591
代码:https://github.com/InternScience/ResearchClawBench
项目主页:https://internscience.github.io/ResearchClawBench-Home/
一句话结论
这是第一个真正让AI"从头到尾做科研"的基准测试。40个真实论文任务,10个科学领域,结果:最强AI得分只有21.5分,而人类论文水平的及格线是50分。
不是AI不行,是之前没人用真刀真枪来测。
为什么之前的基准测试不够?
现有的基准大多测AI的"局部能力":
- 写代码?有HumanEval。
- 做数学题?有GSM8K。
- 读论文?有PaperQA。
- 分析数据?有DataBench。
但科研不是拼乐高,把子能力拼起来就行。科研是一个端到端流程:从问题提出→文献综述→实验设计→数据分析→结果解读→论文撰写。一个环节掉链子,整篇论文就废了。
现有的基准缺少一个东西:完整的、真实的、从0到1的科研再发现流程。ResearchClawBench填补了这个空白。
核心设计:用真实论文"考试"
40个任务,全部来自真实发表的论文
不是出题人编的模拟题,而是已发表的高质量论文。每个任务包含:
- 任务描述(告诉AI要做什么)
- 相关文献(给AI参考)
- 原始数据(实验/仿真数据)
- 目标论文被隐藏(AI看不到答案,必须自己"再发现")
10个科学领域
| 领域 | 任务示例 |
|---|---|
| 化学 | 分子性质预测、生物分子结构建模、原子间静电势 |
| 物理 | 纳米团簇堆积、量子材料测量、量子电路保真度 |
| 材料 | 晶体图材料发现、原子模拟基础模型、聚合物逆向设计 |
| 能源 | 冰冻圈质量变化评估、气候风险分析、全球中期天气预报 |
| 生命科学 | 仿生材料设计、个性化疫苗优化、蛋白质结构搜索 |
| 数学 | 优化算法、多目标跟踪、自动几何定理证明 |
| 地球科学 | 冰冻圈质量变化、气候风险、天气预报 |
| 天文学 | 黑洞与引力波探测、宇宙学张力建模、哈勃常数推断 |
| 信息科学 | 多模态理解、LLM科学推理、网络入侵检测 |
| 神经科学 | 姿态行为分类、连接组神经回路建模、神经元追踪 |
横跨10个完全不同的科学领域,不局限于ML/AI圈子,是真正的"多学科"
专家构建的评分规则(Rubrics)
每个任务都有领域专家手写的评分标准。这些标准不是简单的"对/错",而是加权、多模态、可验证的:
- 关键发现占多少权重
- 关键图表是否重现
- 关键数值是否匹配
- 方法论是否正确
评分规则的设计锚定在50分:
- 50分 = 达到目标论文水平("再发现"成功)
- >50分 = 超越原有论文("新发现")
- <50分 = 还没达到人类论文水平
满分是100分,但50分已经是"及格线"。
评测对象:7个Agent + 17个原生LLM
7个自主科研Agent(Auto-Research Agents)
| Agent | 底层模型 | 特点 |
|---|---|---|
| Claude Code | Claude-Opus-4.6 | Anthropic官方编码Agent |
| Codex CLI | GPT-5.4 | OpenAI官方编码Agent |
| ARIS Codex | Codex/GPT-5.4 | 结合ARIS框架 |
| OpenClaw | GPT-5.4 | 开源Agent框架 |
| Nanobot | GPT-5.4 | 轻量科研Agent |
| EvoScientist | GPT-5.4 | 进化式科研Agent |
| ResearchClaw | GPT-5.4 | 专为科研设计的Agent |
17个原生LLM(通过ResearchHarness接入)
包括:Claude-Opus-4.7/4.6、Qwen3.7-Max、GLM-5.1、Qwen3.6-Plus、Kimi-K2.6、Gemini-3.5-Flash、DeepSeek-V4-Pro、GPT-5.5/5.4、MiMo-V2.5/2-Pro、Qwen3.5-397B-A17B、Kimi-K2.5、Grok-4.1/4.3、Gemini-3.1-Pro
覆盖主流中英文模型,从最强闭源到开源MoE,全面覆盖。
残酷的成绩单
自主Agent结果
| Agent | 平均分 | 最高分领域 | 最低分领域 |
|---|---|---|---|
| Claude Code | 21.5 | 物理 32.3 | 神经科学 5.5 |
| Codex CLI | 18.4 | 物理 31.1 | 化学 7.6 |
| OpenClaw | 16.6 | 物理 27.6 | 化学 6.0 |
| ResearchClaw | 16.3 | 物理 30.1 | 神经科学 4.2 |
| EvoScientist | 15.5 | 物理 26.3 | 化学 4.4 |
| ARIS Codex | 13.6 | 物理 24.7 | 信息科学 6.0 |
| Nanobot | 12.8 | 物理 19.4 | 神经科学 3.3 |
几个关键发现:
- Claude Code是总体最强,但只赢了14/40个任务,没有统治性
- 所有Agent在化学和神经科学上都很惨,物理相对最好
- 7个Agent之间有高度一致的难度排序:21对任务相关性中位数0.79,范围0.64-0.86。这说明任务难度不是Agent的问题,而是任务本身的问题
原生LLM结果(通过ResearchHarness)
| LLM | 平均分 | 最高分领域 | 最低分领域 |
|---|---|---|---|
| Claude-Opus-4.7 | 20.7 | 物理 34.2 | 化学 4.2 |
| Claude-Opus-4.6 | 19.9 | 物理 35.0 | 生命科学 12.7 |
| Qwen3.7-Max | 18.7 | 物理 38.3 | 生命科学 10.3 |
| GLM-5.1 | 18.2 | 化学 11.4 | 神经科学 5.9 |
| Qwen3.6-Plus | 18.0 | 物理 30.7 | 神经科学 4.6 |
| Kimi-K2.6 | 18.0 | 物理 24.0 | 化学 3.1 |
| Gemini-3.5-Flash | 17.9 | 信息科学 24.1 | 神经科学 2.2 |
| DeepSeek-V4-Pro | 17.1 | 物理 28.6 | 信息科学 4.6 |
| GPT-5.5 | 17.0 | 物理 30.9 | 神经科学 6.3 |
| ... | ... | ... | ... |
| Grok-4.3 | 12.4 | 物理 28.2 | 信息科学 2.5 |
LLM层面也有类似规律:
- Claude-Opus-4.7整体最强,但不同领域各有领先者
- 物理领域普遍得分最高(26.5-38.3),化学和神经科学最低
- 一个有意思的发现:Gemini-3.5-Flash在信息科学上表现突出(24.1),DeepSeek-V4-Pro在材料上最强(24.6),Qwen3.7-Max在物理上最强(38.3)——不同模型有不同"专精领域"
关键对比
| 指标 | 自主Agent | 原生LLM |
|---|---|---|
| 最强个体 | Claude Code 21.5 | Claude-Opus-4.7 20.7 |
| 前沿均值(取每个任务的最好结果) | 24.6 | 26.5 |
| 及格线 | 50 | 50 |
| 差距 | 还需提升 2.3x | 还需提升 1.9x |
结论:当前AI离"自主科研"还有一条巨大的鸿沟。 即使取每个任务的最好结果(相当于"全明星阵容"),也只有26.5分,刚过半数的一半。
三大致命伤:AI科研到底死在哪里?
论文做了详细的错误分析,把失败分为6类:
| 错误类型 | 占比 | 说明 |
|---|---|---|
| 实验协议不匹配 | 89.5% | 实验方法、处理流程、基线或验证方式与目标论文不同 |
| 证据不匹配 | 78.5% | 图表、数值或结论与关键证据不匹配 |
| 核心科学缺失 | 68.0% | 核心机制或发现缺失 |
| 目标偏离 | 32.0% | 解决了一个相关但非等价的问题 |
| 可靠性/报告失败 | 10.9% | 无支持的论断、无效证据或报告失败 |
| 执行失败 | 1.5% | 没有产出可用结果 |
前三大错误占了绝大多数的扣分。注意,这些百分比不是互斥的,一个任务可以同时犯多种错误。但最关键的洞察是:
死穴1:实验协议不匹配(89.5%)
AI做实验的方式和目标论文不一样。这就像一个厨师做菜,步骤错了,最后出来的菜根本不是一个东西。常见情况:
- 用了不同的预处理方法
- 选择了不同的基线模型
- 验证策略不同
- 超参数选择不一致
这暴露了一个核心问题:AI缺乏"科研方法论"的理解。它知道要跑实验,但不知道怎么正确地跑实验——而正确的实验设计是科研的灵魂。
死穴2:证据不匹配(78.5%)
AI做出了结果,但结果不对。图表形状不对,数值偏差太大,结论与数据不一致。这就像一个侦探破案,线索都找来了,但串起来讲的故事和真相不一样。
死穴3:核心科学缺失(68.0%)
AI做了一大堆分析,但最关键的洞察没有。好比写了一篇关于癌症治疗的论文,描述了所有实验流程,但忘了说"这个药物为什么有效"——即核心机制的解释。这是最致命的:AI能"做实验",但不能"理解科学"。
一个悖论:写得很像论文,但科研很烂
论文还做了4个补充维度的评测:
- 全面性(Comprehensiveness):内容覆盖了多少方面
- 深度(Depth):分析有多深入
- 指令遵循(Instruction Following):是否按要求做事
- 专业性(Professionalism):报告格式、语言、图表质量
结果很出人意料:
| Agent | 全面性 | 深度 | 指令遵循 | 专业性 |
|---|---|---|---|---|
| Claude Code | 44.6 | 58.0 | 49.0 | 76.4 |
| Codex CLI | 48.6 | 65.9 | 50.8 | 74.4 |
| ResearchClaw | 47.4 | 62.2 | 52.7 | 74.8 |
| EvoScientist | 47.1 | 59.5 | 45.6 | 73.5 |
| OpenClaw | 45.5 | 56.4 | 47.2 | 75.0 |
| ARIS Codex | 44.2 | 60.9 | 43.7 | 71.8 |
| Nanobot | 39.3 | 50.1 | 43.9 | 71.6 |
专业性全部超过70分,但核心科研得分只有12-21分。
这是什么意思?AI能写出一篇看起来很像论文的报告,但里面的科研内容很糟糕。 格式正确、语言专业、图表漂亮,但核心发现要么错了,要么缺失了。
这个发现和当前AI科研Agent的炒作形成了鲜明对比。很多人被"AI写论文"的表象骗了,但ResearchClawBench告诉我们:形式是专业的,内容是空的。
而且,这4个维度与核心科研得分(Rubrics)的相关性很弱。也就是说,一个Agent报告写得再漂亮,也不代表它做对了科研。
ResearchHarness:让原生LLM也能上场
论文设计了一个轻量级工具调用框架,让没有Agent架构的原生LLM也能参与评测。核心设计:
3类工具
| 类别 | 工具 | 功能 |
|---|---|---|
| Web与检索 | WebSearch、ScholarSearch、WebFetch | 搜索网页、学术论文、获取页面内容 |
| 本地文件 | Glob、Grep、Read、ReadPDF、ReadImage、Write、Edit | 文件发现、文本搜索、读取、PDF读取、图片读取、写文件、编辑文件 |
| 本地执行 | Bash、TerminalStart/Write/Read/Interrupt/Kill | 单次命令执行、持久终端会话管理 |
关键特性
- ReAct风格循环:思考→行动→观察→重复
- OpenAI兼容API:通过原生工具调用实现
- 自动上下文压缩:当对话历史接近128k token时,自动总结压缩为紧凑记忆,继续运行
这使得ResearchHarness既轻量又强大,能测出模型本身的科研能力,不受Agent框架差异的干扰。
数据构建:5步专家流程
ResearchClawBench的数据不是自动生成的,而是经过严格的人工构建流程:
- 高质量论文收集:从高影响力期刊和开放数据仓库中筛选论文
- 专家提取核心任务:识别研究问题、提取关键发现、分解方法论
- 数据与文献收集:收集实验数据和参考文献
- 专家构建评分规则:设计加权、多模态的评分标准
- 人工复现与验证:专家重新运行实验,交叉验证,确保评分可复现
这个过程保证了任务的真实性和可验证性。
任务形式化定义:
Task τ = (q, L, D, p★, A)
q: 任务描述
L: 相关文献
D: 原始数据
p★: 隐藏的目标论文
A: 围绕目标论文构建的评估规则
系统输出:
y = (π, o, r)
π: 实验代码和执行过程
o: 中间结果、图表和输出文件
r: 最终研究报告
具体案例:物理002的详细分析
论文给出了一个完整的案例(Physics 002),任务是对随机量子电路采样(RCS)的保真度进行估计。5个评分标准,AI只做到部分:
| 标准 | 权重 | AI得分 | 失败原因 |
|---|---|---|---|
| 固定深度,增加量子比特 | 20% | 27.45/50 | 恢复了线性XEB趋势,但遗漏了log-XEB,没有多估计器对比 |
| 40量子比特,深度扩展 | 20% | 40/50 | 恢复了线性XEB衰减,但缺少多估计器对比 |
| 56量子比特的MB回归 | 15% | 18/50 | 只有简单的MB命中率,没有MB回归、镜像电路推断 |
| 门计数模型 | 25% | 0/50 | 完全缺失,没有门计数曲线、不确定性传播、模型对比 |
| 计数加权的线性XEB | 25% | 47/50 | 基本成功,覆盖了所有深度和实例 |
总分:27.45/50
这个案例清晰地展示了AI的科研模式:能做对"主线任务"(标准5),但缺乏"关键细节"和"深层机制"(标准3、4)。尤其是标准4(门计数模型),AI完全没做——这恰恰是论文的核心创新点。
局限与未来方向
论文坦诚地列出了几个重要局限:
- 只测干实验(Dry-lab),不测湿实验(Wet-lab):没有涉及真实实验平台、样本准备或仪器操作
- 主要评分最终报告,而不是细粒度研究步骤:不知道AI在过程中哪里出了问题
- 评估新发现需要比现有规则更可靠的方法:基于目标论文的评分规则只能测"再发现",不能很好地评估"新发现"
对我们的启示
1. AI科研Agent的"泡沫"需要戳破
当前很多AI科研Agent的演示看起来很惊艳,但ResearchClawBench表明:它们在真实科研任务上,连人类的一半水平都达不到。 不要被"AI写了一篇论文"的表象骗了,要看论文里有没有真东西。
2. "Agent框架"不是银弹
Claude Code(21.5)和Claude-Opus-4.7(20.7)得分几乎一样。这说明Agent框架带来的提升有限,核心瓶颈在模型本身的能力,而不是工具调用或工作流编排。
3. 领域差异巨大
物理(30+)和化学(<10)的得分差异,说明某些科学领域对AI更"友好"(可能数据结构化、计算验证性强),而某些领域(如湿实验、生物实验)对AI极其不友好。未来的AI科研应该先从"AI友好"的领域突破。
4. 50分锚点的设计很聪明
用"达到目标论文水平"作为及格线,而不是用满分作为目标,这更贴近科研现实。科研不是追求满分,而是追求"有原创性的发现"。
5. 这个基准会推动整个领域前进
就像ImageNet推动了计算机视觉,ResearchClawBench会成为自主科研领域的基准。未来每个Agent/模型都会以这个为准绳。
总结
ResearchClawBench是AI科研领域的一个里程碑。它第一次用真实论文、真实数据、真实评分规则,系统性地测试了AI的端到端科研能力。结果不乐观,但诚实比粉饰更有价值。
它告诉我们:AI科研Agent的路还很长。我们需要的不是"能写论文的AI",而是"能做出真实发现的AI"。当前的技术距离这个目标,大概还有2-3代的差距。
但这是一个明确的靶子。有了靶子,就知道往哪打了。
参考文献
- Xu, W. et al. (2026). ResearchClawBench: A Benchmark for End-to-End Autonomous Scientific Research. arXiv:2606.07591.
- Lu, C. et al. (2024). The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery. arXiv:2408.06292.
- Gottweis, J. et al. (2025). Towards an AI Co-Scientist. arXiv:2502.18864.
- Tang, J. et al. (2025). AI-Researcher: Autonomous Scientific Innovation. arXiv:2505.18705.
- Feng, X. et al. (2026). InternAgent-1.5: Unified Agentic Framework for Autonomous AI Research.
#AI科研 #自主科研 #大模型评测 #科研Agent #Benchmark #上海AI实验室 #端到端评测 #AI科学发现
#AI科研 #自主科研 #大模型评测 #科研Agent #Benchmark #上海AI实验室 #端到端评测 #AI科学发现
讨论回复
加载中...正在加载回复...
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。