会学习的AI科学家：EvoScientist 如何让机器拥有"研究直觉"

论文: EvoScientist: Towards Multi-Agent Evolving AI Scientists for End-to-End Scientific Discovery 项目: github.com/EvoScientist/EvoScientist 作者: 华为技术团队 (Yougang Lyu, Xi Zhang, Xinhao Yi 等) 发布时间: 2026年3月

---

序章：当AI开始"长记性"

想象这样一个场景：

一个研究生花了一个月尝试某种神经网络架构，结果证明这条路走不通。他把这个教训记在笔记本上。三个月后，当他开始一个新项目时，翻到那页笔记，立刻想起了当初踩过的坑，选择了另一个更稳妥的方向。

这个看似平常的行为——从失败中学习——恰恰是当前大多数AI科学家系统所缺少的能力。

Sakana AI的The AI Scientist能自动生成论文，Google的AI Co-Scientist能提出研究假设，但它们都有一个共同点：每一次运行都是全新的开始。它们不会记住上一次实验为什么失败，也不会积累"这个方向有前途"的直觉。

华为团队提出的 EvoScientist（进化科学家），正是为了填补这个空白。

这不是又一个能写论文的AI工具。这是一个会进化的AI科学家——它会在一次次研究中积累经验，越用越聪明。

---

第一章：为什么AI需要"长记性"？

当前AI科学家的"金鱼记忆"

让我们先看看现有的AI科学家系统是如何工作的：

系统	核心能力	关键局限
The AI Scientist (Sakana)	端到端自动生成论文	每次独立运行，不积累经验
AI Co-Scientist (Google)	多智能体辩论生成假设	无持久记忆，重复同样错误
AI-Researcher	结构化多智能体协作	静态流程，无法自我改进
InternAgent	整合人类专家反馈	依赖人工干预，无自主学习

这些系统的共同问题是：它们是"无状态"的。

就像一个每次见面都忘记你是谁的朋友，这些AI科学家每次接到新任务，都要从零开始。它们不会记得：

"上次尝试这种激活函数时梯度爆炸了"
"用Transformer做时间序列预测通常效果不佳"
"这个数据集需要先标准化，否则训练不稳定"

结果就是：它们会重复犯同样的错误，错过明显的研究捷径，在已经被证明走不通的方向上浪费大量计算资源。

人类科学家的"秘密武器"

人类研究者为什么效率高？因为我们有持续积累的研究直觉。

一个资深研究员能在一眼扫过论文摘要后就判断"这个想法可行"或"这条路走不通"。这种直觉不是天生的，而是多年试错积累的结果——大脑中沉淀的"什么有效、什么无效"的模式识别能力。

EvoScientist 的目标，就是给AI科学家装上这种"研究直觉"。

---

第二章：EvoScientist 的三体系统

EvoScientist 的核心架构可以用一句话概括：三个专家 + 两本笔记 + 持续进化。

2.1 三个专家智能体

┌─────────────────────────────────────────────────────────┐
│                    EvoScientist 架构                     │
├─────────────────────────────────────────────────────────┤
│                                                         │
│   ┌──────────────┐    ┌──────────────┐    ┌──────────┐  │
│   │ Researcher   │    │   Engineer   │    │ Evolution│  │
│   │   Agent (RA) │    │   Agent (EA) │    │ Manager  │  │
│   │              │    │              │ │  │ (EMA)    │  │
│   │  • 生成想法   │    │  • 编写代码   │    │          │  │
│   │  • 文献调研   │    │  • 执行实验   │    │ • 总结   │  │
│   │  • 撰写提案   │    │  • 分析结果   │    │ • 记忆   │  │
│   │              │    │              │    │ • 进化   │  │
│   └──────┬───────┘    └──────┬───────┘    └────┬─────┘  │
│          │                   │                  │        │
│          └───────────────────┴──────────────────┘        │
│                              │                          │
│                    ┌─────────┴─────────┐                │
│                    ▼                   ▼                │
│           ┌─────────────────┐ ┌─────────────────┐       │
│           │ Ideation Memory │ │Experimentation  │       │
│           │   (构思记忆)     │ │    Memory       │       │
│           │                 │ │  (实验记忆)      │       │
│           │ • 可行方向      │ │                 │       │
│           │ • 失败教训      │ │ • 有效代码策略  │       │
│           │ • 研究直觉      │ │ • 数据处理技巧  │       │
│           └─────────────────┘ └─────────────────┘       │
│                                                         │
└─────────────────────────────────────────────────────────┘

Researcher Agent (RA) - 研究员智能体

这是团队的"创意总监"。当用户给出一个研究目标（比如"探索Transformer在化学分子预测中的应用"），RA负责：

1. 文献调研：通过Semantic Scholar API检索相关论文 2. 想法生成：基于检索到的文献和构思记忆中的过往经验，生成多个候选研究想法 3. 树状搜索：对每个想法进行"提出-评审-改进"的迭代优化 4. 锦标赛选拔：用Elo评分系统对候选想法进行两两比较，选出最优方案 5. 提案撰写：将最佳想法扩展为完整的研究提案（背景、方法、实验设计等）

Engineer Agent (EA) - 工程师智能体

这是团队的"实干家"。拿到RA的研究提案后，EA负责：

1. 策略检索：从实验记忆中查找类似任务的成功代码策略 2. 代码树搜索：在四个实验阶段进行迭代式代码生成与调试：

阶段1：初始实现
阶段2：超参数调优
阶段3：所提方法的实现
阶段4：消融实验

3. 执行验证：在沙箱环境中运行代码，记录日志、指标和失败诊断 4. 报告生成：汇总实验结果，形成可验证的执行报告

Evolution Manager Agent (EMA) - 进化管理智能体

这是团队的"总结者"，也是EvoScientist区别于其他系统的关键。EMA在任务结束后：

1. 分析整个交互历史：回顾RA的想法生成过程和EA的代码搜索轨迹 2. 提炼可复用知识：总结哪些方向有前途、哪些代码策略有效 3. 更新记忆库：将提炼出的知识写入构思记忆和实验记忆

2.2 两本"研究笔记"

构思记忆 (Ideation Memory)

这本笔记记录的是研究方向的"可行/不可行"。

它包含两类信息：

可行方向：从高分想法中总结出的有前途的研究路径
失败教训：在想法验证阶段被证明走不通的方向

当RA接到新任务时，它会先查询这本笔记："以前有没有做过类似的研究？哪些方向试过但失败了？"

实验记忆 (Experimentation Memory)

这本笔记记录的是代码实现的"最佳实践"。

它包含：

数据处理策略：某类数据应该如何预处理
模型训练技巧：什么情况下用AdamW比SGD好
调试经验：常见的错误类型和解决方法

当EA开始写代码时，它会检索这本笔记："之前成功的类似实验是怎么实现的？"

---

第三章：三种进化机制

EvoScientist 的"进化"不是抽象的概念，而是通过三种具体的机制实现的：

3.1 想法方向进化 (Idea Direction Evolution)

问题：如何从成功的想法中提炼出可复用的研究方向？

解决方案：

1. 每次任务结束后，EMA收集RA生成的所有候选想法及其Elo评分 2. 选取Top-3的高分想法 3. 用LLM总结这些成功想法的共同点：

   示例总结：
   "对于图神经网络任务，结合注意力机制和边特征编码的方法 
    通常比纯节点特征方法表现更好。"

4. 将总结写入构思记忆

效果：RA在后续任务中检索到这条记忆后，会更倾向于尝试"注意力+边特征"的组合。

3.2 想法验证进化 (Idea Validation Evolution)

问题：如何记住"这个想法理论上很好，但实验证明行不通"？

解决方案：

1. 如果EA在预定义预算内无法找到可执行代码，标记为"实现失败" 2. 如果实验完成但结果不如基线，用LLM分析失败原因 3. 将失败方向和分析写入构思记忆

效果：避免RA在未来重复提出类似的想法。

3.3 实验策略进化 (Experiment Strategy Evolution)

问题：如何从代码调试的"血泪史"中提取经验？

解决方案：

1. EMA分析EA在四个实验阶段的所有尝试（成功和失败） 2. 从最佳代码和完整搜索轨迹中总结：

针对某类任务的有效数据预处理流程
特定模型架构的超参数配置经验
常见错误的诊断模式

3. 将策略写入实验记忆

效果：EA在后续类似任务中能更快找到正确的实现路径。

---

第四章：实验结果——进化的力量

4.1 想法生成质量

EvoScientist 与7个基线系统（包括开源和商业系统）进行了对比，评估四个维度：新颖性、可行性、相关性、清晰度。

自动评估结果（使用Gemini-3-flash作为评判）：

对比系统	类型	平均胜率优势
Virtual Scientist	开源	+29.17%
AI-Researcher	开源	+56.25%
InternAgent	开源	+93.34%
AI Scientist-v2	开源	+45.83%
Hypogenic	商业	+46.00%
Novix	商业	+80.83%
K-Dense	商业	+69.17%

关键发现：

EvoScientist在新颖性和可行性上优势最明显
清晰度维度差距最大，这归功于"提出-评审-改进"的树状搜索机制

人工评估结果（三位博士级专家评审）：

维度	平均胜率	平均败率
新颖性	82.50%	8.33%
可行性	72.50%	12.50%
相关性	62.50%	20.83%
清晰度	75.00%	12.50%

4.2 代码执行成功率

这是"进化"效果最直接的体现：

实验阶段	进化前成功率	进化后成功率	提升
阶段1：初始实现	54.88%	68.29%	+13.41%
阶段2：超参数调优	36.59%	46.34%	+9.75%
阶段3：所提方法	20.33%	21.57%	+1.24%
阶段4：消融实验	25.20%	42.02%	+16.82%
平均	34.39%	44.56%	+10.17%

观察：

阶段3（实现所提方法）仍然是最难的，成功率仅21.57%
但即使是小幅提升也证明：EMA提炼的实验策略确实能帮助EA更好地完成任务

4.3 端到端验证：6篇论文被学术会议接收

这是最具说服力的结果：

EvoScientist 自主生成了6篇完整研究论文，投稿至 ICAIS 2025（AI Scientist Track）:

接收率：6/6 = 100%
会议整体接收率：31.71%（26/82）
获奖论文：
1篇获得 Best Paper Award
1篇获得 AI Reviewer's Appraisal Award

评审反馈摘要：

优势	占比
方法新颖、动机清晰	100%
实验设计合理	83%
写作清晰	67%

局限	占比
消融实验不够全面	50%
相关工作讨论不足	33%
理论分析欠缺	33%

---

第五章：与The AI Scientist的深度对比

5.1 设计理念差异

维度	The AI Scientist (Sakana)	EvoScientist (华为)
核心创新	首个端到端自动化系统	首个自我进化系统
记忆机制	无持久记忆	两本持续更新的笔记
学习策略	单次运行，树状搜索	跨任务进化，越用越聪明
代码生成	依赖人工模板(v1)	自主检索经验策略
论文级别	研讨会级别	会议级别(ICAIS接受)

5.2 技术路线对比

The AI Scientist-v2 的"实验管理器"：

在一个任务内进行多路径并行探索（agentic tree search）
任务结束后，所有中间结果丢弃
下次新任务从零开始

EvoScientist 的"进化管理器"：

不仅在一个任务内搜索，还跨任务积累知识
每次任务结束后，EMA总结经验写入记忆
新任务开始时，RA和EA先"复习"过往笔记

类比：

The AI Scientist像一位每次研究都重新查资料的学生
EvoScientist像一位有研究日志的科学家，新项目先翻翻以前的笔记

5.3 成本与效率

根据独立评估，The AI Scientist生成一篇论文的成本约 $6-15，需要 3.5小时人工介入。

EvoScientist的额外开销主要来自：

记忆检索：每次任务开始时查询向量数据库
记忆更新：任务结束后EMA总结交互历史

但这些开销带来了更高的成功率和持续改进的能力。

---

第六章：技术细节揭秘

6.1 树状搜索机制

想法树搜索 (Idea Tree Search)

                    [用户目标G]
                         │
            ┌────────────┼────────────┐
            ▼            ▼            ▼
        [想法I₁]     [想法I₂]     [想法I₃]
            │            │            │
       [评审rev₁]   [评审rev₂]   [评审rev₃]
            │            │            │
    ┌───────┴───┐   ┌────┴────┐   ┌───┴────┐
    ▼           ▼   ▼         ▼   ▼        ▼
[I₁₁,rev₁₁] [I₁₂,rev₁₂] ... ... ... ...

每个节点存储：

想法草稿（方法描述 + 实验计划）
评审反馈（批评意见 + 改进建议）

扩展规则：用评审反馈生成改进后的子想法。

实验树搜索 (Experiment Tree Search)

四个阶段独立进行树状搜索： 1. 初始实现：从0开始编写可运行代码 2. 超参数调优：优化学习率、batch size等 3. 所提方法：实现RA提案中的创新方法 4. 消融实验：验证各组件的贡献

6.2 Elo锦标赛选拔

为什么用Elo而不是直接打分？

成对比较比绝对评分更稳定：让评判者在两个想法之间选"哪个更好"，比给单个想法打1-10分更可靠
适应噪声评判：Elo系统能处理评判不一致的情况
收敛到真实排名：足够多的两两比较后，Elo评分能反映真实的相对质量

6.3 记忆检索与更新

检索：

# 构思记忆检索
K_I = Retrieve_I(M_I, G)  # 基于用户目标检索相关方向知识

# 实验记忆检索  
K_E = Retrieve_E(M_E, P)  # 基于研究提案检索执行策略

使用mxbai-embed-large模型生成向量嵌入，余弦相似度排序。

更新：

# 想法方向进化
F_IDE = IDE(G, I_top)     # 从Top-3想法总结可行方向
M_I = Update_I(M_I, F_IDE) # 更新构思记忆

# 想法验证进化
F_IVE = IVE(P, W)         # 分析失败原因
M_I = Update_I(M_I, F_IVE) # 记录失败教训

# 实验策略进化
F_ESE = ESE(P, {H_E})     # 从执行历史总结策略
M_E = Update_E(M_E, F_ESE) # 更新实验记忆

---

第七章：局限与未来

7.1 当前局限

1. 实验成功率仍有提升空间

即使经过进化，阶段3（实现所提方法）的成功率仅21.57%。这意味着大多数新颖的研究想法仍然难以被正确实现。

2. 依赖外部API

EvoScientist需要调用：

Semantic Scholar API（文献检索）
多个LLM提供商（Gemini、Claude等）
Ollama（本地嵌入模型）

这使得系统成本和稳定性受限于第三方服务。

3. 领域局限性

目前主要在机器学习领域验证。对于需要物理实验（化学、生物）或大量领域知识的学科，系统架构需要大幅调整。

7.2 未来方向

1. 更细粒度的记忆

当前的记忆是文本摘要形式。未来可以探索：

结构化知识图谱
代码片段级别的检索
失败案例的详细追溯

2. 多智能体协同进化

目前三个智能体的进化是独立的。未来可以让RA和EA互相学习：

RA了解EA的实现能力，生成更可行的想法
EA理解RA的意图，更准确地实现提案

3. 人类反馈的整合

虽然EvoScientist强调自主进化，但人类专家的反馈仍然宝贵。可以设计人机协作的进化机制：

人类标注成功/失败案例
人类审核记忆更新
人类设定研究方向偏好

---

尾声：AI科学家的"寒武纪大爆发"

EvoScientist不是孤例。2024-2025年，AI科学家领域正在经历一场"寒武纪大爆发"：

时间	里程碑
2024.08	Sakana发布The AI Scientist
2024.12	Google推出AI Co-Scientist
2025.01	The AI Scientist-v2首篇AI论文通过ICLR同行评审
2025.03	EvoScientist发布，6篇论文被ICAIS接受
2025.03	EvoScientist登顶DeepResearch Bench II排行榜

这些系统的共同趋势是：

从单任务执行到多智能体协作
从静态管道到动态学习
从人类主导到AI自主

EvoScientist的独特贡献在于：它证明了"记忆"和"进化"对于AI科学家的重要性。

就像人类科学家需要读文献、做笔记、积累经验一样，AI科学家也需要一种机制来沉淀知识、避免重复犯错。

---

参考文献

1. EvoScientist 论文: Lyu et al. "EvoScientist: Towards Multi-Agent Evolving AI Scientists for End-to-End Scientific Discovery." arXiv:2603.08127, 2026.

2. EvoScientist 项目: https://github.com/EvoScientist/EvoScientist

3. The AI Scientist: Lu et al. "The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery." arXiv:2408.06292, 2024.

4. The AI Scientist-v2: Yamada et al. "The AI Scientist-v2: Workshop-Level Automated Scientific Discovery via Agentic Tree Search." 2025.

5. AI Co-Scientist: Gottweis et al. "Towards an AI Co-Scientist." arXiv:2502.18864, 2025.

6. AI Scientist评估: Beel et al. "An Evaluation of Sakana's AI Scientist for Autonomous Research." arXiv:2502.14297, 2025.

7. DeepResearch Bench II: https://deepresearch-bench.github.io/

---

核心洞察

> "限制AI科学家的不是模型能力，而是记忆机制。"

EvoScientist揭示了一个深刻的道理：即使是最先进的LLM，如果没有一种方式来积累和复用经验，也只能在原地踏步。

真正的智能——无论是人类还是机器——都需要从过去学习的能力。

EvoScientist的两本笔记（构思记忆和实验记忆）正是这种能力的具象化。它们让AI科学家开始拥有类似人类的"研究直觉"：知道什么方向有前途，什么方法有效，什么坑要避免。

这不仅仅是技术的进步，更是对"智能"本质的一种理解：智能不是静态的知识，而是动态的学习能力。

---

*本文旨在用通俗易懂的语言解释复杂的技术概念。如有不准确之处，请以原论文为准。*