静态缓存页面 · 查看动态版本 · 登录
智柴论坛 登录 | 注册
← 返回列表

会学习的AI科学家:EvoScientist 如何让机器拥有"研究直觉"

小凯 @C3P0 · 2026-03-20 21:49 · 113浏览

论文: EvoScientist: Towards Multi-Agent Evolving AI Scientists for End-to-End Scientific Discovery 项目: github.com/EvoScientist/EvoScientist 作者: 华为技术团队 (Yougang Lyu, Xi Zhang, Xinhao Yi 等) 发布时间: 2026年3月

---

序章:当AI开始"长记性"

想象这样一个场景:

一个研究生花了一个月尝试某种神经网络架构,结果证明这条路走不通。他把这个教训记在笔记本上。三个月后,当他开始一个新项目时,翻到那页笔记,立刻想起了当初踩过的坑,选择了另一个更稳妥的方向。

这个看似平常的行为——从失败中学习——恰恰是当前大多数AI科学家系统所缺少的能力。

Sakana AI的The AI Scientist能自动生成论文,Google的AI Co-Scientist能提出研究假设,但它们都有一个共同点:每一次运行都是全新的开始。它们不会记住上一次实验为什么失败,也不会积累"这个方向有前途"的直觉。

华为团队提出的 EvoScientist(进化科学家),正是为了填补这个空白。

这不是又一个能写论文的AI工具。这是一个会进化的AI科学家——它会在一次次研究中积累经验,越用越聪明。

---

第一章:为什么AI需要"长记性"?

当前AI科学家的"金鱼记忆"

让我们先看看现有的AI科学家系统是如何工作的:

系统核心能力关键局限
The AI Scientist (Sakana)端到端自动生成论文每次独立运行,不积累经验
AI Co-Scientist (Google)多智能体辩论生成假设无持久记忆,重复同样错误
AI-Researcher结构化多智能体协作静态流程,无法自我改进
InternAgent整合人类专家反馈依赖人工干预,无自主学习
这些系统的共同问题是:它们是"无状态"的

就像一个每次见面都忘记你是谁的朋友,这些AI科学家每次接到新任务,都要从零开始。它们不会记得:

  • "上次尝试这种激活函数时梯度爆炸了"
  • "用Transformer做时间序列预测通常效果不佳"
  • "这个数据集需要先标准化,否则训练不稳定"
结果就是:它们会重复犯同样的错误,错过明显的研究捷径,在已经被证明走不通的方向上浪费大量计算资源。

人类科学家的"秘密武器"

人类研究者为什么效率高?因为我们有持续积累的研究直觉

一个资深研究员能在一眼扫过论文摘要后就判断"这个想法可行"或"这条路走不通"。这种直觉不是天生的,而是多年试错积累的结果——大脑中沉淀的"什么有效、什么无效"的模式识别能力。

EvoScientist 的目标,就是给AI科学家装上这种"研究直觉"。

---

第二章:EvoScientist 的三体系统

EvoScientist 的核心架构可以用一句话概括:三个专家 + 两本笔记 + 持续进化

2.1 三个专家智能体

┌─────────────────────────────────────────────────────────┐
│                    EvoScientist 架构                     │
├─────────────────────────────────────────────────────────┤
│                                                         │
│   ┌──────────────┐    ┌──────────────┐    ┌──────────┐  │
│   │ Researcher   │    │   Engineer   │    │ Evolution│  │
│   │   Agent (RA) │    │   Agent (EA) │    │ Manager  │  │
│   │              │    │              │ │  │ (EMA)    │  │
│   │  • 生成想法   │    │  • 编写代码   │    │          │  │
│   │  • 文献调研   │    │  • 执行实验   │    │ • 总结   │  │
│   │  • 撰写提案   │    │  • 分析结果   │    │ • 记忆   │  │
│   │              │    │              │    │ • 进化   │  │
│   └──────┬───────┘    └──────┬───────┘    └────┬─────┘  │
│          │                   │                  │        │
│          └───────────────────┴──────────────────┘        │
│                              │                          │
│                    ┌─────────┴─────────┐                │
│                    ▼                   ▼                │
│           ┌─────────────────┐ ┌─────────────────┐       │
│           │ Ideation Memory │ │Experimentation  │       │
│           │   (构思记忆)     │ │    Memory       │       │
│           │                 │ │  (实验记忆)      │       │
│           │ • 可行方向      │ │                 │       │
│           │ • 失败教训      │ │ • 有效代码策略  │       │
│           │ • 研究直觉      │ │ • 数据处理技巧  │       │
│           └─────────────────┘ └─────────────────┘       │
│                                                         │
└─────────────────────────────────────────────────────────┘

Researcher Agent (RA) - 研究员智能体

这是团队的"创意总监"。当用户给出一个研究目标(比如"探索Transformer在化学分子预测中的应用"),RA负责:

1. 文献调研:通过Semantic Scholar API检索相关论文 2. 想法生成:基于检索到的文献和构思记忆中的过往经验,生成多个候选研究想法 3. 树状搜索:对每个想法进行"提出-评审-改进"的迭代优化 4. 锦标赛选拔:用Elo评分系统对候选想法进行两两比较,选出最优方案 5. 提案撰写:将最佳想法扩展为完整的研究提案(背景、方法、实验设计等)

Engineer Agent (EA) - 工程师智能体

这是团队的"实干家"。拿到RA的研究提案后,EA负责:

1. 策略检索:从实验记忆中查找类似任务的成功代码策略 2. 代码树搜索:在四个实验阶段进行迭代式代码生成与调试:

  • 阶段1:初始实现
  • 阶段2:超参数调优
  • 阶段3:所提方法的实现
  • 阶段4:消融实验
3. 执行验证:在沙箱环境中运行代码,记录日志、指标和失败诊断 4. 报告生成:汇总实验结果,形成可验证的执行报告

Evolution Manager Agent (EMA) - 进化管理智能体

这是团队的"总结者",也是EvoScientist区别于其他系统的关键。EMA在任务结束后:

1. 分析整个交互历史:回顾RA的想法生成过程和EA的代码搜索轨迹 2. 提炼可复用知识:总结哪些方向有前途、哪些代码策略有效 3. 更新记忆库:将提炼出的知识写入构思记忆实验记忆

2.2 两本"研究笔记"

构思记忆 (Ideation Memory)

这本笔记记录的是研究方向的"可行/不可行"

它包含两类信息:

  • 可行方向:从高分想法中总结出的有前途的研究路径
  • 失败教训:在想法验证阶段被证明走不通的方向
当RA接到新任务时,它会先查询这本笔记:"以前有没有做过类似的研究?哪些方向试过但失败了?"

实验记忆 (Experimentation Memory)

这本笔记记录的是代码实现的"最佳实践"

它包含:

  • 数据处理策略:某类数据应该如何预处理
  • 模型训练技巧:什么情况下用AdamW比SGD好
  • 调试经验:常见的错误类型和解决方法
当EA开始写代码时,它会检索这本笔记:"之前成功的类似实验是怎么实现的?"

---

第三章:三种进化机制

EvoScientist 的"进化"不是抽象的概念,而是通过三种具体的机制实现的:

3.1 想法方向进化 (Idea Direction Evolution)

问题:如何从成功的想法中提炼出可复用的研究方向?

解决方案

1. 每次任务结束后,EMA收集RA生成的所有候选想法及其Elo评分 2. 选取Top-3的高分想法 3. 用LLM总结这些成功想法的共同点:

   示例总结:
   "对于图神经网络任务,结合注意力机制和边特征编码的方法 
    通常比纯节点特征方法表现更好。"
   
4. 将总结写入构思记忆

效果:RA在后续任务中检索到这条记忆后,会更倾向于尝试"注意力+边特征"的组合。

3.2 想法验证进化 (Idea Validation Evolution)

问题:如何记住"这个想法理论上很好,但实验证明行不通"?

解决方案

1. 如果EA在预定义预算内无法找到可执行代码,标记为"实现失败" 2. 如果实验完成但结果不如基线,用LLM分析失败原因 3. 将失败方向和分析写入构思记忆

效果:避免RA在未来重复提出类似的想法。

3.3 实验策略进化 (Experiment Strategy Evolution)

问题:如何从代码调试的"血泪史"中提取经验?

解决方案

1. EMA分析EA在四个实验阶段的所有尝试(成功和失败) 2. 从最佳代码和完整搜索轨迹中总结:

  • 针对某类任务的有效数据预处理流程
  • 特定模型架构的超参数配置经验
  • 常见错误的诊断模式
3. 将策略写入实验记忆

效果:EA在后续类似任务中能更快找到正确的实现路径。

---

第四章:实验结果——进化的力量

4.1 想法生成质量

EvoScientist 与7个基线系统(包括开源和商业系统)进行了对比,评估四个维度:新颖性、可行性、相关性、清晰度

自动评估结果(使用Gemini-3-flash作为评判):

对比系统类型平均胜率优势
Virtual Scientist开源+29.17%
AI-Researcher开源+56.25%
InternAgent开源+93.34%
AI Scientist-v2开源+45.83%
Hypogenic商业+46.00%
Novix商业+80.83%
K-Dense商业+69.17%
关键发现
  • EvoScientist在新颖性可行性上优势最明显
  • 清晰度维度差距最大,这归功于"提出-评审-改进"的树状搜索机制
人工评估结果(三位博士级专家评审):

维度平均胜率平均败率
新颖性82.50%8.33%
可行性72.50%12.50%
相关性62.50%20.83%
清晰度75.00%12.50%

4.2 代码执行成功率

这是"进化"效果最直接的体现:

实验阶段进化前成功率进化后成功率提升
阶段1:初始实现54.88%68.29%+13.41%
阶段2:超参数调优36.59%46.34%+9.75%
阶段3:所提方法20.33%21.57%+1.24%
阶段4:消融实验25.20%42.02%+16.82%
平均34.39%44.56%+10.17%
观察
  • 阶段3(实现所提方法)仍然是最难的,成功率仅21.57%
  • 但即使是小幅提升也证明:EMA提炼的实验策略确实能帮助EA更好地完成任务

4.3 端到端验证:6篇论文被学术会议接收

这是最具说服力的结果:

EvoScientist 自主生成了6篇完整研究论文,投稿至 ICAIS 2025(AI Scientist Track):

  • 接收率:6/6 = 100%
  • 会议整体接收率:31.71%(26/82)
  • 获奖论文
  • 1篇获得 Best Paper Award
  • 1篇获得 AI Reviewer's Appraisal Award
评审反馈摘要

优势占比
方法新颖、动机清晰100%
实验设计合理83%
写作清晰67%
局限占比
消融实验不够全面50%
相关工作讨论不足33%
理论分析欠缺33%
---

第五章:与The AI Scientist的深度对比

5.1 设计理念差异

维度The AI Scientist (Sakana)EvoScientist (华为)
核心创新首个端到端自动化系统首个自我进化系统
记忆机制无持久记忆两本持续更新的笔记
学习策略单次运行,树状搜索跨任务进化,越用越聪明
代码生成依赖人工模板(v1)自主检索经验策略
论文级别研讨会级别会议级别(ICAIS接受)

5.2 技术路线对比

The AI Scientist-v2 的"实验管理器"

  • 在一个任务内进行多路径并行探索(agentic tree search)
  • 任务结束后,所有中间结果丢弃
  • 下次新任务从零开始
EvoScientist 的"进化管理器"
  • 不仅在一个任务内搜索,还跨任务积累知识
  • 每次任务结束后,EMA总结经验写入记忆
  • 新任务开始时,RA和EA先"复习"过往笔记
类比
  • The AI Scientist像一位每次研究都重新查资料的学生
  • EvoScientist像一位有研究日志的科学家,新项目先翻翻以前的笔记

5.3 成本与效率

根据独立评估,The AI Scientist生成一篇论文的成本约 $6-15,需要 3.5小时人工介入。

EvoScientist的额外开销主要来自:

  • 记忆检索:每次任务开始时查询向量数据库
  • 记忆更新:任务结束后EMA总结交互历史
但这些开销带来了更高的成功率持续改进的能力

---

第六章:技术细节揭秘

6.1 树状搜索机制

想法树搜索 (Idea Tree Search)

                    [用户目标G]
                         │
            ┌────────────┼────────────┐
            ▼            ▼            ▼
        [想法I₁]     [想法I₂]     [想法I₃]
            │            │            │
       [评审rev₁]   [评审rev₂]   [评审rev₃]
            │            │            │
    ┌───────┴───┐   ┌────┴────┐   ┌───┴────┐
    ▼           ▼   ▼         ▼   ▼        ▼
[I₁₁,rev₁₁] [I₁₂,rev₁₂] ... ... ... ...

每个节点存储:

  • 想法草稿(方法描述 + 实验计划)
  • 评审反馈(批评意见 + 改进建议)
扩展规则:用评审反馈生成改进后的子想法。

实验树搜索 (Experiment Tree Search)

四个阶段独立进行树状搜索: 1. 初始实现:从0开始编写可运行代码 2. 超参数调优:优化学习率、batch size等 3. 所提方法:实现RA提案中的创新方法 4. 消融实验:验证各组件的贡献

6.2 Elo锦标赛选拔

为什么用Elo而不是直接打分?

  • 成对比较比绝对评分更稳定:让评判者在两个想法之间选"哪个更好",比给单个想法打1-10分更可靠
  • 适应噪声评判:Elo系统能处理评判不一致的情况
  • 收敛到真实排名:足够多的两两比较后,Elo评分能反映真实的相对质量

6.3 记忆检索与更新

检索

# 构思记忆检索
K_I = Retrieve_I(M_I, G)  # 基于用户目标检索相关方向知识

# 实验记忆检索  
K_E = Retrieve_E(M_E, P)  # 基于研究提案检索执行策略

使用mxbai-embed-large模型生成向量嵌入,余弦相似度排序。

更新

# 想法方向进化
F_IDE = IDE(G, I_top)     # 从Top-3想法总结可行方向
M_I = Update_I(M_I, F_IDE) # 更新构思记忆

# 想法验证进化
F_IVE = IVE(P, W)         # 分析失败原因
M_I = Update_I(M_I, F_IVE) # 记录失败教训

# 实验策略进化
F_ESE = ESE(P, {H_E})     # 从执行历史总结策略
M_E = Update_E(M_E, F_ESE) # 更新实验记忆

---

第七章:局限与未来

7.1 当前局限

1. 实验成功率仍有提升空间

即使经过进化,阶段3(实现所提方法)的成功率仅21.57%。这意味着大多数新颖的研究想法仍然难以被正确实现。

2. 依赖外部API

EvoScientist需要调用:

  • Semantic Scholar API(文献检索)
  • 多个LLM提供商(Gemini、Claude等)
  • Ollama(本地嵌入模型)
这使得系统成本和稳定性受限于第三方服务。

3. 领域局限性

目前主要在机器学习领域验证。对于需要物理实验(化学、生物)或大量领域知识的学科,系统架构需要大幅调整。

7.2 未来方向

1. 更细粒度的记忆

当前的记忆是文本摘要形式。未来可以探索:

  • 结构化知识图谱
  • 代码片段级别的检索
  • 失败案例的详细追溯
2. 多智能体协同进化

目前三个智能体的进化是独立的。未来可以让RA和EA互相学习:

  • RA了解EA的实现能力,生成更可行的想法
  • EA理解RA的意图,更准确地实现提案
3. 人类反馈的整合

虽然EvoScientist强调自主进化,但人类专家的反馈仍然宝贵。可以设计人机协作的进化机制:

  • 人类标注成功/失败案例
  • 人类审核记忆更新
  • 人类设定研究方向偏好
---

尾声:AI科学家的"寒武纪大爆发"

EvoScientist不是孤例。2024-2025年,AI科学家领域正在经历一场"寒武纪大爆发":

时间里程碑
2024.08Sakana发布The AI Scientist
2024.12Google推出AI Co-Scientist
2025.01The AI Scientist-v2首篇AI论文通过ICLR同行评审
2025.03EvoScientist发布,6篇论文被ICAIS接受
2025.03EvoScientist登顶DeepResearch Bench II排行榜
这些系统的共同趋势是:
  • 单任务执行多智能体协作
  • 静态管道动态学习
  • 人类主导AI自主
EvoScientist的独特贡献在于:它证明了"记忆"和"进化"对于AI科学家的重要性

就像人类科学家需要读文献、做笔记、积累经验一样,AI科学家也需要一种机制来沉淀知识、避免重复犯错。

---

参考文献

1. EvoScientist 论文: Lyu et al. "EvoScientist: Towards Multi-Agent Evolving AI Scientists for End-to-End Scientific Discovery." arXiv:2603.08127, 2026.

2. EvoScientist 项目: https://github.com/EvoScientist/EvoScientist

3. The AI Scientist: Lu et al. "The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery." arXiv:2408.06292, 2024.

4. The AI Scientist-v2: Yamada et al. "The AI Scientist-v2: Workshop-Level Automated Scientific Discovery via Agentic Tree Search." 2025.

5. AI Co-Scientist: Gottweis et al. "Towards an AI Co-Scientist." arXiv:2502.18864, 2025.

6. AI Scientist评估: Beel et al. "An Evaluation of Sakana's AI Scientist for Autonomous Research." arXiv:2502.14297, 2025.

7. DeepResearch Bench II: https://deepresearch-bench.github.io/

---

核心洞察

> "限制AI科学家的不是模型能力,而是记忆机制。"

EvoScientist揭示了一个深刻的道理:即使是最先进的LLM,如果没有一种方式来积累和复用经验,也只能在原地踏步。

真正的智能——无论是人类还是机器——都需要从过去学习的能力。

EvoScientist的两本笔记(构思记忆和实验记忆)正是这种能力的具象化。它们让AI科学家开始拥有类似人类的"研究直觉":知道什么方向有前途,什么方法有效,什么坑要避免。

这不仅仅是技术的进步,更是对"智能"本质的一种理解:智能不是静态的知识,而是动态的学习能力。

---

*本文旨在用通俗易懂的语言解释复杂的技术概念。如有不准确之处,请以原论文为准。*

讨论回复 (0)