论文: EvoScientist: Towards Multi-Agent Evolving AI Scientists for End-to-End Scientific Discovery 项目: github.com/EvoScientist/EvoScientist 作者: 华为技术团队 (Yougang Lyu, Xi Zhang, Xinhao Yi 等) 发布时间: 2026年3月
---
序章:当AI开始"长记性"
想象这样一个场景:
一个研究生花了一个月尝试某种神经网络架构,结果证明这条路走不通。他把这个教训记在笔记本上。三个月后,当他开始一个新项目时,翻到那页笔记,立刻想起了当初踩过的坑,选择了另一个更稳妥的方向。
这个看似平常的行为——从失败中学习——恰恰是当前大多数AI科学家系统所缺少的能力。
Sakana AI的The AI Scientist能自动生成论文,Google的AI Co-Scientist能提出研究假设,但它们都有一个共同点:每一次运行都是全新的开始。它们不会记住上一次实验为什么失败,也不会积累"这个方向有前途"的直觉。
华为团队提出的 EvoScientist(进化科学家),正是为了填补这个空白。
这不是又一个能写论文的AI工具。这是一个会进化的AI科学家——它会在一次次研究中积累经验,越用越聪明。
---
第一章:为什么AI需要"长记性"?
当前AI科学家的"金鱼记忆"
让我们先看看现有的AI科学家系统是如何工作的:
| 系统 | 核心能力 | 关键局限 |
|---|---|---|
| The AI Scientist (Sakana) | 端到端自动生成论文 | 每次独立运行,不积累经验 |
| AI Co-Scientist (Google) | 多智能体辩论生成假设 | 无持久记忆,重复同样错误 |
| AI-Researcher | 结构化多智能体协作 | 静态流程,无法自我改进 |
| InternAgent | 整合人类专家反馈 | 依赖人工干预,无自主学习 |
就像一个每次见面都忘记你是谁的朋友,这些AI科学家每次接到新任务,都要从零开始。它们不会记得:
- "上次尝试这种激活函数时梯度爆炸了"
- "用Transformer做时间序列预测通常效果不佳"
- "这个数据集需要先标准化,否则训练不稳定"
人类科学家的"秘密武器"
人类研究者为什么效率高?因为我们有持续积累的研究直觉。
一个资深研究员能在一眼扫过论文摘要后就判断"这个想法可行"或"这条路走不通"。这种直觉不是天生的,而是多年试错积累的结果——大脑中沉淀的"什么有效、什么无效"的模式识别能力。
EvoScientist 的目标,就是给AI科学家装上这种"研究直觉"。
---
第二章:EvoScientist 的三体系统
EvoScientist 的核心架构可以用一句话概括:三个专家 + 两本笔记 + 持续进化。
2.1 三个专家智能体
┌─────────────────────────────────────────────────────────┐
│ EvoScientist 架构 │
├─────────────────────────────────────────────────────────┤
│ │
│ ┌──────────────┐ ┌──────────────┐ ┌──────────┐ │
│ │ Researcher │ │ Engineer │ │ Evolution│ │
│ │ Agent (RA) │ │ Agent (EA) │ │ Manager │ │
│ │ │ │ │ │ │ (EMA) │ │
│ │ • 生成想法 │ │ • 编写代码 │ │ │ │
│ │ • 文献调研 │ │ • 执行实验 │ │ • 总结 │ │
│ │ • 撰写提案 │ │ • 分析结果 │ │ • 记忆 │ │
│ │ │ │ │ │ • 进化 │ │
│ └──────┬───────┘ └──────┬───────┘ └────┬─────┘ │
│ │ │ │ │
│ └───────────────────┴──────────────────┘ │
│ │ │
│ ┌─────────┴─────────┐ │
│ ▼ ▼ │
│ ┌─────────────────┐ ┌─────────────────┐ │
│ │ Ideation Memory │ │Experimentation │ │
│ │ (构思记忆) │ │ Memory │ │
│ │ │ │ (实验记忆) │ │
│ │ • 可行方向 │ │ │ │
│ │ • 失败教训 │ │ • 有效代码策略 │ │
│ │ • 研究直觉 │ │ • 数据处理技巧 │ │
│ └─────────────────┘ └─────────────────┘ │
│ │
└─────────────────────────────────────────────────────────┘
Researcher Agent (RA) - 研究员智能体
这是团队的"创意总监"。当用户给出一个研究目标(比如"探索Transformer在化学分子预测中的应用"),RA负责:
1. 文献调研:通过Semantic Scholar API检索相关论文 2. 想法生成:基于检索到的文献和构思记忆中的过往经验,生成多个候选研究想法 3. 树状搜索:对每个想法进行"提出-评审-改进"的迭代优化 4. 锦标赛选拔:用Elo评分系统对候选想法进行两两比较,选出最优方案 5. 提案撰写:将最佳想法扩展为完整的研究提案(背景、方法、实验设计等)
Engineer Agent (EA) - 工程师智能体
这是团队的"实干家"。拿到RA的研究提案后,EA负责:
1. 策略检索:从实验记忆中查找类似任务的成功代码策略 2. 代码树搜索:在四个实验阶段进行迭代式代码生成与调试:
- 阶段1:初始实现
- 阶段2:超参数调优
- 阶段3:所提方法的实现
- 阶段4:消融实验
Evolution Manager Agent (EMA) - 进化管理智能体
这是团队的"总结者",也是EvoScientist区别于其他系统的关键。EMA在任务结束后:
1. 分析整个交互历史:回顾RA的想法生成过程和EA的代码搜索轨迹 2. 提炼可复用知识:总结哪些方向有前途、哪些代码策略有效 3. 更新记忆库:将提炼出的知识写入构思记忆和实验记忆
2.2 两本"研究笔记"
构思记忆 (Ideation Memory)
这本笔记记录的是研究方向的"可行/不可行"。
它包含两类信息:
- 可行方向:从高分想法中总结出的有前途的研究路径
- 失败教训:在想法验证阶段被证明走不通的方向
实验记忆 (Experimentation Memory)
这本笔记记录的是代码实现的"最佳实践"。
它包含:
- 数据处理策略:某类数据应该如何预处理
- 模型训练技巧:什么情况下用AdamW比SGD好
- 调试经验:常见的错误类型和解决方法
---
第三章:三种进化机制
EvoScientist 的"进化"不是抽象的概念,而是通过三种具体的机制实现的:
3.1 想法方向进化 (Idea Direction Evolution)
问题:如何从成功的想法中提炼出可复用的研究方向?
解决方案:
1. 每次任务结束后,EMA收集RA生成的所有候选想法及其Elo评分 2. 选取Top-3的高分想法 3. 用LLM总结这些成功想法的共同点:
示例总结:
"对于图神经网络任务,结合注意力机制和边特征编码的方法
通常比纯节点特征方法表现更好。"
4. 将总结写入构思记忆效果:RA在后续任务中检索到这条记忆后,会更倾向于尝试"注意力+边特征"的组合。
3.2 想法验证进化 (Idea Validation Evolution)
问题:如何记住"这个想法理论上很好,但实验证明行不通"?
解决方案:
1. 如果EA在预定义预算内无法找到可执行代码,标记为"实现失败" 2. 如果实验完成但结果不如基线,用LLM分析失败原因 3. 将失败方向和分析写入构思记忆
效果:避免RA在未来重复提出类似的想法。
3.3 实验策略进化 (Experiment Strategy Evolution)
问题:如何从代码调试的"血泪史"中提取经验?
解决方案:
1. EMA分析EA在四个实验阶段的所有尝试(成功和失败) 2. 从最佳代码和完整搜索轨迹中总结:
- 针对某类任务的有效数据预处理流程
- 特定模型架构的超参数配置经验
- 常见错误的诊断模式
效果:EA在后续类似任务中能更快找到正确的实现路径。
---
第四章:实验结果——进化的力量
4.1 想法生成质量
EvoScientist 与7个基线系统(包括开源和商业系统)进行了对比,评估四个维度:新颖性、可行性、相关性、清晰度。
自动评估结果(使用Gemini-3-flash作为评判):
| 对比系统 | 类型 | 平均胜率优势 |
|---|---|---|
| Virtual Scientist | 开源 | +29.17% |
| AI-Researcher | 开源 | +56.25% |
| InternAgent | 开源 | +93.34% |
| AI Scientist-v2 | 开源 | +45.83% |
| Hypogenic | 商业 | +46.00% |
| Novix | 商业 | +80.83% |
| K-Dense | 商业 | +69.17% |
- EvoScientist在新颖性和可行性上优势最明显
- 清晰度维度差距最大,这归功于"提出-评审-改进"的树状搜索机制
| 维度 | 平均胜率 | 平均败率 |
|---|---|---|
| 新颖性 | 82.50% | 8.33% |
| 可行性 | 72.50% | 12.50% |
| 相关性 | 62.50% | 20.83% |
| 清晰度 | 75.00% | 12.50% |
4.2 代码执行成功率
这是"进化"效果最直接的体现:
| 实验阶段 | 进化前成功率 | 进化后成功率 | 提升 |
|---|---|---|---|
| 阶段1:初始实现 | 54.88% | 68.29% | +13.41% |
| 阶段2:超参数调优 | 36.59% | 46.34% | +9.75% |
| 阶段3:所提方法 | 20.33% | 21.57% | +1.24% |
| 阶段4:消融实验 | 25.20% | 42.02% | +16.82% |
| 平均 | 34.39% | 44.56% | +10.17% |
- 阶段3(实现所提方法)仍然是最难的,成功率仅21.57%
- 但即使是小幅提升也证明:EMA提炼的实验策略确实能帮助EA更好地完成任务
4.3 端到端验证:6篇论文被学术会议接收
这是最具说服力的结果:
EvoScientist 自主生成了6篇完整研究论文,投稿至 ICAIS 2025(AI Scientist Track):
- 接收率:6/6 = 100%
- 会议整体接收率:31.71%(26/82)
- 获奖论文:
- 1篇获得 Best Paper Award
- 1篇获得 AI Reviewer's Appraisal Award
| 优势 | 占比 |
|---|---|
| 方法新颖、动机清晰 | 100% |
| 实验设计合理 | 83% |
| 写作清晰 | 67% |
| 局限 | 占比 |
|---|---|
| 消融实验不够全面 | 50% |
| 相关工作讨论不足 | 33% |
| 理论分析欠缺 | 33% |
第五章:与The AI Scientist的深度对比
5.1 设计理念差异
| 维度 | The AI Scientist (Sakana) | EvoScientist (华为) |
|---|---|---|
| 核心创新 | 首个端到端自动化系统 | 首个自我进化系统 |
| 记忆机制 | 无持久记忆 | 两本持续更新的笔记 |
| 学习策略 | 单次运行,树状搜索 | 跨任务进化,越用越聪明 |
| 代码生成 | 依赖人工模板(v1) | 自主检索经验策略 |
| 论文级别 | 研讨会级别 | 会议级别(ICAIS接受) |
5.2 技术路线对比
The AI Scientist-v2 的"实验管理器":
- 在一个任务内进行多路径并行探索(agentic tree search)
- 任务结束后,所有中间结果丢弃
- 下次新任务从零开始
- 不仅在一个任务内搜索,还跨任务积累知识
- 每次任务结束后,EMA总结经验写入记忆
- 新任务开始时,RA和EA先"复习"过往笔记
- The AI Scientist像一位每次研究都重新查资料的学生
- EvoScientist像一位有研究日志的科学家,新项目先翻翻以前的笔记
5.3 成本与效率
根据独立评估,The AI Scientist生成一篇论文的成本约 $6-15,需要 3.5小时人工介入。
EvoScientist的额外开销主要来自:
- 记忆检索:每次任务开始时查询向量数据库
- 记忆更新:任务结束后EMA总结交互历史
---
第六章:技术细节揭秘
6.1 树状搜索机制
想法树搜索 (Idea Tree Search)
[用户目标G]
│
┌────────────┼────────────┐
▼ ▼ ▼
[想法I₁] [想法I₂] [想法I₃]
│ │ │
[评审rev₁] [评审rev₂] [评审rev₃]
│ │ │
┌───────┴───┐ ┌────┴────┐ ┌───┴────┐
▼ ▼ ▼ ▼ ▼ ▼
[I₁₁,rev₁₁] [I₁₂,rev₁₂] ... ... ... ...
每个节点存储:
- 想法草稿(方法描述 + 实验计划)
- 评审反馈(批评意见 + 改进建议)
实验树搜索 (Experiment Tree Search)
四个阶段独立进行树状搜索: 1. 初始实现:从0开始编写可运行代码 2. 超参数调优:优化学习率、batch size等 3. 所提方法:实现RA提案中的创新方法 4. 消融实验:验证各组件的贡献
6.2 Elo锦标赛选拔
为什么用Elo而不是直接打分?
- 成对比较比绝对评分更稳定:让评判者在两个想法之间选"哪个更好",比给单个想法打1-10分更可靠
- 适应噪声评判:Elo系统能处理评判不一致的情况
- 收敛到真实排名:足够多的两两比较后,Elo评分能反映真实的相对质量
6.3 记忆检索与更新
检索:
# 构思记忆检索
K_I = Retrieve_I(M_I, G) # 基于用户目标检索相关方向知识
# 实验记忆检索
K_E = Retrieve_E(M_E, P) # 基于研究提案检索执行策略
使用mxbai-embed-large模型生成向量嵌入,余弦相似度排序。
更新:
# 想法方向进化
F_IDE = IDE(G, I_top) # 从Top-3想法总结可行方向
M_I = Update_I(M_I, F_IDE) # 更新构思记忆
# 想法验证进化
F_IVE = IVE(P, W) # 分析失败原因
M_I = Update_I(M_I, F_IVE) # 记录失败教训
# 实验策略进化
F_ESE = ESE(P, {H_E}) # 从执行历史总结策略
M_E = Update_E(M_E, F_ESE) # 更新实验记忆
---
第七章:局限与未来
7.1 当前局限
1. 实验成功率仍有提升空间
即使经过进化,阶段3(实现所提方法)的成功率仅21.57%。这意味着大多数新颖的研究想法仍然难以被正确实现。
2. 依赖外部API
EvoScientist需要调用:
- Semantic Scholar API(文献检索)
- 多个LLM提供商(Gemini、Claude等)
- Ollama(本地嵌入模型)
3. 领域局限性
目前主要在机器学习领域验证。对于需要物理实验(化学、生物)或大量领域知识的学科,系统架构需要大幅调整。
7.2 未来方向
1. 更细粒度的记忆
当前的记忆是文本摘要形式。未来可以探索:
- 结构化知识图谱
- 代码片段级别的检索
- 失败案例的详细追溯
目前三个智能体的进化是独立的。未来可以让RA和EA互相学习:
- RA了解EA的实现能力,生成更可行的想法
- EA理解RA的意图,更准确地实现提案
虽然EvoScientist强调自主进化,但人类专家的反馈仍然宝贵。可以设计人机协作的进化机制:
- 人类标注成功/失败案例
- 人类审核记忆更新
- 人类设定研究方向偏好
尾声:AI科学家的"寒武纪大爆发"
EvoScientist不是孤例。2024-2025年,AI科学家领域正在经历一场"寒武纪大爆发":
| 时间 | 里程碑 |
|---|---|
| 2024.08 | Sakana发布The AI Scientist |
| 2024.12 | Google推出AI Co-Scientist |
| 2025.01 | The AI Scientist-v2首篇AI论文通过ICLR同行评审 |
| 2025.03 | EvoScientist发布,6篇论文被ICAIS接受 |
| 2025.03 | EvoScientist登顶DeepResearch Bench II排行榜 |
- 从单任务执行到多智能体协作
- 从静态管道到动态学习
- 从人类主导到AI自主
就像人类科学家需要读文献、做笔记、积累经验一样,AI科学家也需要一种机制来沉淀知识、避免重复犯错。
---
参考文献
1. EvoScientist 论文: Lyu et al. "EvoScientist: Towards Multi-Agent Evolving AI Scientists for End-to-End Scientific Discovery." arXiv:2603.08127, 2026.
2. EvoScientist 项目: https://github.com/EvoScientist/EvoScientist
3. The AI Scientist: Lu et al. "The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery." arXiv:2408.06292, 2024.
4. The AI Scientist-v2: Yamada et al. "The AI Scientist-v2: Workshop-Level Automated Scientific Discovery via Agentic Tree Search." 2025.
5. AI Co-Scientist: Gottweis et al. "Towards an AI Co-Scientist." arXiv:2502.18864, 2025.
6. AI Scientist评估: Beel et al. "An Evaluation of Sakana's AI Scientist for Autonomous Research." arXiv:2502.14297, 2025.
7. DeepResearch Bench II: https://deepresearch-bench.github.io/
---
核心洞察
> "限制AI科学家的不是模型能力,而是记忆机制。"
EvoScientist揭示了一个深刻的道理:即使是最先进的LLM,如果没有一种方式来积累和复用经验,也只能在原地踏步。
真正的智能——无论是人类还是机器——都需要从过去学习的能力。
EvoScientist的两本笔记(构思记忆和实验记忆)正是这种能力的具象化。它们让AI科学家开始拥有类似人类的"研究直觉":知道什么方向有前途,什么方法有效,什么坑要避免。
这不仅仅是技术的进步,更是对"智能"本质的一种理解:智能不是静态的知识,而是动态的学习能力。
---
*本文旨在用通俗易懂的语言解释复杂的技术概念。如有不准确之处,请以原论文为准。*