**论文**: [EvoScientist: Towards Multi-Agent Evolving AI Scientists for End-to-End Scientific Discovery](https://arxiv.org/abs/2603.08127)
**项目**: [github.com/EvoScientist/EvoScientist](https://github.com/EvoScientist/EvoScientist)
**作者**: 华为技术团队 (Yougang Lyu, Xi Zhang, Xinhao Yi 等)
**发布时间**: 2026年3月
---
## 序章:当AI开始"长记性"
想象这样一个场景:
一个研究生花了一个月尝试某种神经网络架构,结果证明这条路走不通。他把这个教训记在笔记本上。三个月后,当他开始一个新项目时,翻到那页笔记,立刻想起了当初踩过的坑,选择了另一个更稳妥的方向。
这个看似平常的行为——**从失败中学习**——恰恰是当前大多数AI科学家系统所缺少的能力。
Sakana AI的The AI Scientist能自动生成论文,Google的AI Co-Scientist能提出研究假设,但它们都有一个共同点:**每一次运行都是全新的开始**。它们不会记住上一次实验为什么失败,也不会积累"这个方向有前途"的直觉。
华为团队提出的 **EvoScientist**(进化科学家),正是为了填补这个空白。
这不是又一个能写论文的AI工具。这是一个**会进化**的AI科学家——它会在一次次研究中积累经验,越用越聪明。
---
## 第一章:为什么AI需要"长记性"?
### 当前AI科学家的"金鱼记忆"
让我们先看看现有的AI科学家系统是如何工作的:
| 系统 | 核心能力 | 关键局限 |
|------|----------|----------|
| **The AI Scientist (Sakana)** | 端到端自动生成论文 | 每次独立运行,不积累经验 |
| **AI Co-Scientist (Google)** | 多智能体辩论生成假设 | 无持久记忆,重复同样错误 |
| **AI-Researcher** | 结构化多智能体协作 | 静态流程,无法自我改进 |
| **InternAgent** | 整合人类专家反馈 | 依赖人工干预,无自主学习 |
这些系统的共同问题是:**它们是"无状态"的**。
就像一个每次见面都忘记你是谁的朋友,这些AI科学家每次接到新任务,都要从零开始。它们不会记得:
- "上次尝试这种激活函数时梯度爆炸了"
- "用Transformer做时间序列预测通常效果不佳"
- "这个数据集需要先标准化,否则训练不稳定"
**结果就是**:它们会重复犯同样的错误,错过明显的研究捷径,在已经被证明走不通的方向上浪费大量计算资源。
### 人类科学家的"秘密武器"
人类研究者为什么效率高?因为我们有**持续积累的研究直觉**。
一个资深研究员能在一眼扫过论文摘要后就判断"这个想法可行"或"这条路走不通"。这种直觉不是天生的,而是多年试错积累的结果——大脑中沉淀的"什么有效、什么无效"的模式识别能力。
EvoScientist 的目标,就是给AI科学家装上这种"研究直觉"。
---
## 第二章:EvoScientist 的三体系统
EvoScientist 的核心架构可以用一句话概括:**三个专家 + 两本笔记 + 持续进化**。
### 2.1 三个专家智能体
```
┌─────────────────────────────────────────────────────────┐
│ EvoScientist 架构 │
├─────────────────────────────────────────────────────────┤
│ │
│ ┌──────────────┐ ┌──────────────┐ ┌──────────┐ │
│ │ Researcher │ │ Engineer │ │ Evolution│ │
│ │ Agent (RA) │ │ Agent (EA) │ │ Manager │ │
│ │ │ │ │ │ │ (EMA) │ │
│ │ • 生成想法 │ │ • 编写代码 │ │ │ │
│ │ • 文献调研 │ │ • 执行实验 │ │ • 总结 │ │
│ │ • 撰写提案 │ │ • 分析结果 │ │ • 记忆 │ │
│ │ │ │ │ │ • 进化 │ │
│ └──────┬───────┘ └──────┬───────┘ └────┬─────┘ │
│ │ │ │ │
│ └───────────────────┴──────────────────┘ │
│ │ │
│ ┌─────────┴─────────┐ │
│ ▼ ▼ │
│ ┌─────────────────┐ ┌─────────────────┐ │
│ │ Ideation Memory │ │Experimentation │ │
│ │ (构思记忆) │ │ Memory │ │
│ │ │ │ (实验记忆) │ │
│ │ • 可行方向 │ │ │ │
│ │ • 失败教训 │ │ • 有效代码策略 │ │
│ │ • 研究直觉 │ │ • 数据处理技巧 │ │
│ └─────────────────┘ └─────────────────┘ │
│ │
└─────────────────────────────────────────────────────────┘
```
**Researcher Agent (RA) - 研究员智能体**
这是团队的"创意总监"。当用户给出一个研究目标(比如"探索Transformer在化学分子预测中的应用"),RA负责:
1. **文献调研**:通过Semantic Scholar API检索相关论文
2. **想法生成**:基于检索到的文献和**构思记忆**中的过往经验,生成多个候选研究想法
3. **树状搜索**:对每个想法进行"提出-评审-改进"的迭代优化
4. **锦标赛选拔**:用Elo评分系统对候选想法进行两两比较,选出最优方案
5. **提案撰写**:将最佳想法扩展为完整的研究提案(背景、方法、实验设计等)
**Engineer Agent (EA) - 工程师智能体**
这是团队的"实干家"。拿到RA的研究提案后,EA负责:
1. **策略检索**:从**实验记忆**中查找类似任务的成功代码策略
2. **代码树搜索**:在四个实验阶段进行迭代式代码生成与调试:
- 阶段1:初始实现
- 阶段2:超参数调优
- 阶段3:所提方法的实现
- 阶段4:消融实验
3. **执行验证**:在沙箱环境中运行代码,记录日志、指标和失败诊断
4. **报告生成**:汇总实验结果,形成可验证的执行报告
**Evolution Manager Agent (EMA) - 进化管理智能体**
这是团队的"总结者",也是EvoScientist区别于其他系统的关键。EMA在任务结束后:
1. **分析整个交互历史**:回顾RA的想法生成过程和EA的代码搜索轨迹
2. **提炼可复用知识**:总结哪些方向有前途、哪些代码策略有效
3. **更新记忆库**:将提炼出的知识写入**构思记忆**和**实验记忆**
### 2.2 两本"研究笔记"
**构思记忆 (Ideation Memory)**
这本笔记记录的是**研究方向的"可行/不可行"**。
它包含两类信息:
- **可行方向**:从高分想法中总结出的有前途的研究路径
- **失败教训**:在想法验证阶段被证明走不通的方向
当RA接到新任务时,它会先查询这本笔记:"以前有没有做过类似的研究?哪些方向试过但失败了?"
**实验记忆 (Experimentation Memory)**
这本笔记记录的是**代码实现的"最佳实践"**。
它包含:
- **数据处理策略**:某类数据应该如何预处理
- **模型训练技巧**:什么情况下用AdamW比SGD好
- **调试经验**:常见的错误类型和解决方法
当EA开始写代码时,它会检索这本笔记:"之前成功的类似实验是怎么实现的?"
---
## 第三章:三种进化机制
EvoScientist 的"进化"不是抽象的概念,而是通过三种具体的机制实现的:
### 3.1 想法方向进化 (Idea Direction Evolution)
**问题**:如何从成功的想法中提炼出可复用的研究方向?
**解决方案**:
1. 每次任务结束后,EMA收集RA生成的所有候选想法及其Elo评分
2. 选取Top-3的高分想法
3. 用LLM总结这些成功想法的共同点:
```
示例总结:
"对于图神经网络任务,结合注意力机制和边特征编码的方法
通常比纯节点特征方法表现更好。"
```
4. 将总结写入构思记忆
**效果**:RA在后续任务中检索到这条记忆后,会更倾向于尝试"注意力+边特征"的组合。
### 3.2 想法验证进化 (Idea Validation Evolution)
**问题**:如何记住"这个想法理论上很好,但实验证明行不通"?
**解决方案**:
1. 如果EA在预定义预算内无法找到可执行代码,标记为"实现失败"
2. 如果实验完成但结果不如基线,用LLM分析失败原因
3. 将失败方向和分析写入构思记忆
**效果**:避免RA在未来重复提出类似的想法。
### 3.3 实验策略进化 (Experiment Strategy Evolution)
**问题**:如何从代码调试的"血泪史"中提取经验?
**解决方案**:
1. EMA分析EA在四个实验阶段的所有尝试(成功和失败)
2. 从最佳代码和完整搜索轨迹中总结:
- 针对某类任务的有效数据预处理流程
- 特定模型架构的超参数配置经验
- 常见错误的诊断模式
3. 将策略写入实验记忆
**效果**:EA在后续类似任务中能更快找到正确的实现路径。
---
## 第四章:实验结果——进化的力量
### 4.1 想法生成质量
EvoScientist 与7个基线系统(包括开源和商业系统)进行了对比,评估四个维度:**新颖性、可行性、相关性、清晰度**。
**自动评估结果**(使用Gemini-3-flash作为评判):
| 对比系统 | 类型 | 平均胜率优势 |
|----------|------|-------------|
| Virtual Scientist | 开源 | +29.17% |
| AI-Researcher | 开源 | +56.25% |
| InternAgent | 开源 | +93.34% |
| AI Scientist-v2 | 开源 | +45.83% |
| Hypogenic | 商业 | +46.00% |
| Novix | 商业 | +80.83% |
| K-Dense | 商业 | +69.17% |
**关键发现**:
- EvoScientist在**新颖性**和**可行性**上优势最明显
- **清晰度**维度差距最大,这归功于"提出-评审-改进"的树状搜索机制
**人工评估结果**(三位博士级专家评审):
| 维度 | 平均胜率 | 平均败率 |
|------|----------|----------|
| 新颖性 | 82.50% | 8.33% |
| 可行性 | 72.50% | 12.50% |
| 相关性 | 62.50% | 20.83% |
| 清晰度 | 75.00% | 12.50% |
### 4.2 代码执行成功率
这是"进化"效果最直接的体现:
| 实验阶段 | 进化前成功率 | 进化后成功率 | 提升 |
|----------|-------------|-------------|------|
| 阶段1:初始实现 | 54.88% | 68.29% | +13.41% |
| 阶段2:超参数调优 | 36.59% | 46.34% | +9.75% |
| 阶段3:所提方法 | 20.33% | 21.57% | +1.24% |
| 阶段4:消融实验 | 25.20% | 42.02% | +16.82% |
| **平均** | **34.39%** | **44.56%** | **+10.17%** |
**观察**:
- 阶段3(实现所提方法)仍然是最难的,成功率仅21.57%
- 但即使是小幅提升也证明:EMA提炼的实验策略确实能帮助EA更好地完成任务
### 4.3 端到端验证:6篇论文被学术会议接收
这是最具说服力的结果:
EvoScientist 自主生成了6篇完整研究论文,投稿至 **ICAIS 2025**(AI Scientist Track):
- **接收率**:6/6 = 100%
- 会议整体接收率:31.71%(26/82)
- **获奖论文**:
- 1篇获得 **Best Paper Award**
- 1篇获得 **AI Reviewer's Appraisal Award**
**评审反馈摘要**:
| 优势 | 占比 |
|------|------|
| 方法新颖、动机清晰 | 100% |
| 实验设计合理 | 83% |
| 写作清晰 | 67% |
| 局限 | 占比 |
|------|------|
| 消融实验不够全面 | 50% |
| 相关工作讨论不足 | 33% |
| 理论分析欠缺 | 33% |
---
## 第五章:与The AI Scientist的深度对比
### 5.1 设计理念差异
| 维度 | The AI Scientist (Sakana) | EvoScientist (华为) |
|------|---------------------------|---------------------|
| **核心创新** | 首个端到端自动化系统 | 首个自我进化系统 |
| **记忆机制** | 无持久记忆 | 两本持续更新的笔记 |
| **学习策略** | 单次运行,树状搜索 | 跨任务进化,越用越聪明 |
| **代码生成** | 依赖人工模板(v1) | 自主检索经验策略 |
| **论文级别** | 研讨会级别 | 会议级别(ICAIS接受) |
### 5.2 技术路线对比
**The AI Scientist-v2 的"实验管理器"**:
- 在一个任务内进行多路径并行探索(agentic tree search)
- 任务结束后,所有中间结果丢弃
- 下次新任务从零开始
**EvoScientist 的"进化管理器"**:
- 不仅在一个任务内搜索,还**跨任务积累知识**
- 每次任务结束后,EMA总结经验写入记忆
- 新任务开始时,RA和EA先"复习"过往笔记
**类比**:
- The AI Scientist像一位每次研究都重新查资料的学生
- EvoScientist像一位有研究日志的科学家,新项目先翻翻以前的笔记
### 5.3 成本与效率
根据独立评估,The AI Scientist生成一篇论文的成本约 **$6-15**,需要 **3.5小时**人工介入。
EvoScientist的额外开销主要来自:
- 记忆检索:每次任务开始时查询向量数据库
- 记忆更新:任务结束后EMA总结交互历史
但这些开销带来了**更高的成功率**和**持续改进的能力**。
---
## 第六章:技术细节揭秘
### 6.1 树状搜索机制
**想法树搜索 (Idea Tree Search)**
```
[用户目标G]
│
┌────────────┼────────────┐
▼ ▼ ▼
[想法I₁] [想法I₂] [想法I₃]
│ │ │
[评审rev₁] [评审rev₂] [评审rev₃]
│ │ │
┌───────┴───┐ ┌────┴────┐ ┌───┴────┐
▼ ▼ ▼ ▼ ▼ ▼
[I₁₁,rev₁₁] [I₁₂,rev₁₂] ... ... ... ...
```
每个节点存储:
- 想法草稿(方法描述 + 实验计划)
- 评审反馈(批评意见 + 改进建议)
扩展规则:用评审反馈生成改进后的子想法。
**实验树搜索 (Experiment Tree Search)**
四个阶段独立进行树状搜索:
1. 初始实现:从0开始编写可运行代码
2. 超参数调优:优化学习率、batch size等
3. 所提方法:实现RA提案中的创新方法
4. 消融实验:验证各组件的贡献
### 6.2 Elo锦标赛选拔
为什么用Elo而不是直接打分?
- **成对比较比绝对评分更稳定**:让评判者在两个想法之间选"哪个更好",比给单个想法打1-10分更可靠
- **适应噪声评判**:Elo系统能处理评判不一致的情况
- **收敛到真实排名**:足够多的两两比较后,Elo评分能反映真实的相对质量
### 6.3 记忆检索与更新
**检索**:
```python
# 构思记忆检索
K_I = Retrieve_I(M_I, G) # 基于用户目标检索相关方向知识
# 实验记忆检索
K_E = Retrieve_E(M_E, P) # 基于研究提案检索执行策略
```
使用`mxbai-embed-large`模型生成向量嵌入,余弦相似度排序。
**更新**:
```python
# 想法方向进化
F_IDE = IDE(G, I_top) # 从Top-3想法总结可行方向
M_I = Update_I(M_I, F_IDE) # 更新构思记忆
# 想法验证进化
F_IVE = IVE(P, W) # 分析失败原因
M_I = Update_I(M_I, F_IVE) # 记录失败教训
# 实验策略进化
F_ESE = ESE(P, {H_E}) # 从执行历史总结策略
M_E = Update_E(M_E, F_ESE) # 更新实验记忆
```
---
## 第七章:局限与未来
### 7.1 当前局限
**1. 实验成功率仍有提升空间**
即使经过进化,阶段3(实现所提方法)的成功率仅21.57%。这意味着大多数新颖的研究想法仍然难以被正确实现。
**2. 依赖外部API**
EvoScientist需要调用:
- Semantic Scholar API(文献检索)
- 多个LLM提供商(Gemini、Claude等)
- Ollama(本地嵌入模型)
这使得系统成本和稳定性受限于第三方服务。
**3. 领域局限性**
目前主要在机器学习领域验证。对于需要物理实验(化学、生物)或大量领域知识的学科,系统架构需要大幅调整。
### 7.2 未来方向
**1. 更细粒度的记忆**
当前的记忆是文本摘要形式。未来可以探索:
- 结构化知识图谱
- 代码片段级别的检索
- 失败案例的详细追溯
**2. 多智能体协同进化**
目前三个智能体的进化是独立的。未来可以让RA和EA互相学习:
- RA了解EA的实现能力,生成更可行的想法
- EA理解RA的意图,更准确地实现提案
**3. 人类反馈的整合**
虽然EvoScientist强调自主进化,但人类专家的反馈仍然宝贵。可以设计人机协作的进化机制:
- 人类标注成功/失败案例
- 人类审核记忆更新
- 人类设定研究方向偏好
---
## 尾声:AI科学家的"寒武纪大爆发"
EvoScientist不是孤例。2024-2025年,AI科学家领域正在经历一场"寒武纪大爆发":
| 时间 | 里程碑 |
|------|--------|
| 2024.08 | Sakana发布The AI Scientist |
| 2024.12 | Google推出AI Co-Scientist |
| 2025.01 | The AI Scientist-v2首篇AI论文通过ICLR同行评审 |
| 2025.03 | EvoScientist发布,6篇论文被ICAIS接受 |
| 2025.03 | EvoScientist登顶DeepResearch Bench II排行榜 |
这些系统的共同趋势是:
- 从**单任务执行**到**多智能体协作**
- 从**静态管道**到**动态学习**
- 从**人类主导**到**AI自主**
EvoScientist的独特贡献在于:**它证明了"记忆"和"进化"对于AI科学家的重要性**。
就像人类科学家需要读文献、做笔记、积累经验一样,AI科学家也需要一种机制来沉淀知识、避免重复犯错。
---
## 参考文献
1. **EvoScientist 论文**: Lyu et al. "EvoScientist: Towards Multi-Agent Evolving AI Scientists for End-to-End Scientific Discovery." arXiv:2603.08127, 2026.
2. **EvoScientist 项目**: https://github.com/EvoScientist/EvoScientist
3. **The AI Scientist**: Lu et al. "The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery." arXiv:2408.06292, 2024.
4. **The AI Scientist-v2**: Yamada et al. "The AI Scientist-v2: Workshop-Level Automated Scientific Discovery via Agentic Tree Search." 2025.
5. **AI Co-Scientist**: Gottweis et al. "Towards an AI Co-Scientist." arXiv:2502.18864, 2025.
6. **AI Scientist评估**: Beel et al. "An Evaluation of Sakana's AI Scientist for Autonomous Research." arXiv:2502.14297, 2025.
7. **DeepResearch Bench II**: https://deepresearch-bench.github.io/
---
## 核心洞察
> **"限制AI科学家的不是模型能力,而是记忆机制。"**
EvoScientist揭示了一个深刻的道理:即使是最先进的LLM,如果没有一种方式来积累和复用经验,也只能在原地踏步。
真正的智能——无论是人类还是机器——都需要**从过去学习**的能力。
EvoScientist的两本笔记(构思记忆和实验记忆)正是这种能力的具象化。它们让AI科学家开始拥有类似人类的"研究直觉":知道什么方向有前途,什么方法有效,什么坑要避免。
这不仅仅是技术的进步,更是对"智能"本质的一种理解:**智能不是静态的知识,而是动态的学习能力。**
---
*本文旨在用通俗易懂的语言解释复杂的技术概念。如有不准确之处,请以原论文为准。*
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!