论文:EvoScientist: Towards Multi-Agent Evolving AI Scientists for End-to-End Scientific Discovery
作者:Yougang Lyu, Xi Zhang, Xinhao Yi, Yuyue Zhao, Shuyu Guo, Wenxiang Hu, Jan Piotrowski, Jakub Kaliski, Jacopo Urbani, Zaiqiao Meng, Lun Zhou, Xiaohui Yan
机构:Huawei Technologies + Vrije Universiteit Amsterdam
arXiv:2603.08127|GitHub:https://github.com/EvoScientist/EvoScientist
PyPI:pip install EvoScientist|License:Apache-2.0
发表时间:2026年3月9日
一、核心问题:AI 科学家为什么总在重复犯错?
2024年,AI Scientist 用一台 GPU 跑三天就能出一篇论文。这个系统震撼了学术界,也让很多人开始担忧:如果 AI 能自己写论文,科研人员还有什么用?
但问题很快暴露——AI Scientist 的论文质量参差不齐,更致命的是,它不会从失败中学习。今天跑崩的实验,明天换个题目照样崩;上周被审稿人否掉的方向,这周又以稍微不同的包装重新出现。系统像一个每次开机都重置记忆的新手研究员,永远在原地打转。
EvoScientist 针对的正是这个痛点:如何让 AI 科学家"长记性"?
作者的核心观察很朴素:人类科研能力的增长,不是靠单次实验的完美执行,而是靠经验的积累——知道哪些方向有前景、哪些坑不要踩、哪些代码套路最稳。AI 科学家也需要这种"经验沉淀"机制。
二、架构:三个智能体 + 两本"错题本"
EvoScientist 不是单一大模型打天下,而是一个多智能体协作系统,核心角色有三个:
| 智能体 | 职责 | 类比 |
|---|---|---|
| RA (Researcher Agent) | 生成研究想法、扩展为完整提案 | 课题组 PI |
| EA (Engineer Agent) | 把提案变成可执行代码、跑实验、诊断失败 | 实验室工程师 |
| EMA (Evolution Manager Agent) | 分析 RA 和 EA 的完整交互历史,提炼可复用知识 | 实验室老司机 |
RA 和 EA 各自配有一本"错题本"(持久记忆模块):
- Ideation Memory (\(M_I\)):记录"有前景的研究方向"和"失败的验证案例"。RA 每次生成新想法之前,先翻这本书——看看之前哪些方向被证实可行、哪些被证伪。
- Experimentation Memory (\(M_E\)):记录"有效的数据处理策略"和"可靠的模型训练配置"。EA 每次写代码之前,先查这本书——看看之前哪些超参组合最稳、哪些库函数最靠谱。
EMA 则在每次任务完成后,像一位耐心的导师,把 RA 和 EA 的聊天记录逐条翻完,提炼出三份知识快照:
- IDE (Idea Direction Evolution):从 Top-3 想法中提炼"有前景的方向"
- IVE (Idea Validation Evolution):从失败实验中总结"哪些坑不要踩"
- ESE (Experiment Strategy Evolution):从成功代码中沉淀"最佳实践"
三份快照分别写入 \(M_I\) 和 \(M_E\),供下一轮任务检索。
三、技术细节:树搜索 + Elo 锦标赛 + 四阶段实验
3.1 想法生成:Idea Tree Search
RA 不是一拍脑袋出一个想法,而是做树搜索:
- 从一个粗略的方向出发,生成多个候选想法
- 每个候选想法配一段"评审反馈"
- 用反馈来精炼子想法,扩展搜索树
- 最后用 Elo 锦标赛 对候选想法排名——两两对比,基于"新颖性、可行性、相关性、清晰性"四个维度打分
- Top-1 扩展为完整研究提案,含背景、方法、实验计划
Elo 锦标赛的优势在于:它不需要"绝对分数",只需要"谁更好"。在 LLM 评判存在噪声的情况下,成对比较比绝对打分更稳定。
3.2 实验执行:Experiment Tree Search(四阶段)
EA 把提案变成代码,也采用树搜索,分四个阶段迭代:
| 阶段 | 目标 | 成功率(进化后) |
|---|---|---|
| Stage 1 | 初始实现:跑通基线代码 | 42.93% |
| Stage 2 | 超参调优:找到最优配置 | 58.62% |
| Stage 3 | 提出方法:实现论文核心创新 | 21.57% |
| Stage 4 | 消融实验:验证各组件贡献 | 55.12% |
Stage 3 最难——让 AI 提出真正有价值的方法创新,成功率仅 21.57%。但即便如此,实验策略进化(ESE) 仍能带来 1.24pp 的提升,说明"记住之前的方法套路"确实有帮助。
3.3 记忆检索:嵌入相似度
两个记忆模块都用 mxbai-embed-large(通过 Ollama 本地部署)做嵌入,基于 cosine distance 检索:
- \(M_I\) 检索 top-\(k_I\) = 2(方向记忆不需要太多,关键是精准)
- \(M_E\) 检索 top-\(k_E\) = 1(实验策略更具体,取最相关的即可)
检索结果直接注入 RA 和 EA 的 prompt,形成"检索增强的生成"。
四、实验结果:全面碾压 7 个基线
4.1 想法生成(自动评估,Gemini-3-flash 评判)
EvoScientist vs 7 个开源/商业系统:
| 系统 | 类型 | 新颖性 | 可行性 | 相关性 | 清晰性 | 平均领先 |
|---|---|---|---|---|---|---|
| Virtual Scientist | 开源 | +96.67%* | +93.33%* | +90.00%* | +96.67%* | +93.34pp |
| AI-Researcher | 开源 | +96.67%* | +90.00%* | +86.67%* | +93.34%* | +87.50pp |
| InternAgent | 开源 | +73.33%* | +93.33%* | +86.67%* | +96.67%* | +83.33pp |
| AI Scientist-v2 | 开源 | +63.33%* | +53.33%* | +36.67%* | +56.67%* | +29.17pp |
| Hypogenic | 商业 | +93.33%* | +83.34%* | +70.00%* | +96.67%* | +80.83pp |
| Novix | 商业 | +90.00%* | +53.33%* | +46.67%* | +70.67%* | +46.00pp |
| K-Dense | 商业 | +86.67%* | +56.67%* | +43.33%* | +76.67%* | +54.50pp |
注: 表示 p < 0.05 显著优于基线
人类专家评估(3名AI领域PhD)结果与自动评估高度一致(90%一致率),验证了评判的可靠性。
4.2 消融实验:进化的价值
| 移除组件 | 新颖性损失 | 可行性损失 | 平均损失 |
|---|---|---|---|
| -IDE(方向进化) | -66.67% | -50.00% | -22.50pp |
| -IVE(验证进化) | -43.33% | -63.33% | -20.00pp |
| -all(全部移除) | -80.00% | -83.33% | -45.83pp |
全部移除进化机制后,想法质量断崖式下跌。这说明持久记忆不是锦上添花,而是系统的核心支柱。
4.3 代码执行成功率
| 阶段 | 无进化 | 有进化 | 提升 |
|---|---|---|---|
| 初始实现 | 29.23% | 42.93% | +13.70pp |
| 超参调优 | 48.94% | 58.62% | +9.68pp |
| 提出方法 | 20.33% | 21.57% | +1.24pp |
| 消融实验 | 39.06% | 55.12% | +16.06pp |
| 平均 | 34.39% | 44.56% | +10.17pp |
Stage 3(提出方法)仍是最难的瓶颈,但其他三个阶段都有显著提升。
五、工业落地:不是一个 demo,是一个产品
EvoScientist 与 2026 年大多数"AI 科学家"项目有一个关键区别:它有完整的工程实现。
GitHub 仓库包含:
- pyproject.toml:正经 Python 包,版本 0.1.1,Apache-2.0 许可证
- uv.lock:943KB 的依赖锁定文件,说明依赖管理是认真的
- Dockerfile + docker-compose.yml:一键容器化部署
- tests/:有测试目录
- docs/:有文档目录
- 6 个子智能体 YAML 配置:planner、research、code、debug、data_analysis、writing
- 多模型后端:Anthropic、OpenAI、Google、MiniMax、NVIDIA、Ollama、OpenRouter
- 多渠道接入:Telegram、Discord、Slack、飞书、微信、QQ
- MCP 集成:一条命令
EvoSci mcp add即可接入外部工具 - PyPI 发布:
pip install EvoScientist
作者 Xi Zhang 此前的 CoEvoSkills 项目(arXiv:2604.01687)GitHub 仓库只有 README + 项目主页 HTML,没有代码。EvoScientist 是同一作者的第二个项目,这次代码、文档、容器化、包管理全齐——从"方法论展示"进化到了"可运行产品"。
5.1 模型配置
| 任务 | 模型 | 备注 |
|---|---|---|
| 想法生成 | Gemini-2.5-Pro | 创意任务 |
| 代码生成 | Claude-4.5-Haiku | 代码任务 |
| 论文撰写 | Gemini-2.5-Pro | 写作任务 |
| 嵌入 | mxbai-embed-large (Ollama) | 本地部署 |
| 文献检索 | Semantic Scholar API | 学术搜索 |
| 网络搜索 | Tavily API | 可选 |
5.2 竞赛成绩
- ICAIS 2025 AI Scientist Track:6 篇论文全部接收(100% 接收率,平均接收率 31.71%)
- 1 篇 Best Paper Award:《Adaptive Evidential Meta-Learning with Hyper-Conditioned Priors for Calibrated ECG Personalisation》
- 1 篇 AI Reviewer's Appraisal Award:《Hierarchical Change Signature Analysis: A Framework for Online Discrimination of Incipient Faults and Benign Drifts in Industrial Time Series》
- DeepResearch Bench:#1(2026-04-18)
- DeepResearch Bench II:#1(2026-04-13,2026-03-06)
- AstaBench 数据分析:#1(2026-03-26)
- AstaBench 代码与执行:#1(2026-03-25)
六、与其他 AI 科学家系统的对比
| 系统 | 年份 | 记忆机制 | 多智能体 | 开源代码 | 核心差异 |
|---|---|---|---|---|---|
| AI Scientist (Lu et al.) | 2024/2026 | ❌ 无 | ❌ 单智能体 | ⚠️ 部分 | 静态流水线,无经验积累 |
| Agent Laboratory | 2025 | ⚠️ 有限 | ✅ 多智能体 | ✅ 有 | 侧重实验执行,记忆非核心 |
| AIDE (WecoAI) | 2025 | ⚠️ 树搜索记忆 | ✅ 多智能体 | ✅ 有 | 侧重 ML 工程,非端到端科研 |
| PantheonOS (Stanford) | 2025 | ✅ 有 | ✅ 多智能体 | ✅ 有 | 侧重生物学,社区市场驱动 |
| CORAL | 2026 | ✅ git worktree | ✅ 多智能体 | ✅ 有 | 侧重基础设施,自进化评分 |
| EvoScientist | 2026 | ✅ 双记忆模块 | ✅ 3+6子智能体 | ✅ 完整 | 经验驱动的端到端进化 |
EvoScientist 的独特定位:它不是在做"更好的树搜索",而是在做"搜索结果的持久化"。树搜索让单次任务更高效,持久记忆让跨任务能力持续增长。
七、局限性
论文坦诚地列出了几个局限:
- Stage 3 瓶颈:提出真正新颖的方法成功率仅 21.57%,AI 科学家的"创造力天花板"仍然存在
- 评判偏差:自动评估依赖 Gemini-3-flash,其评判标准可能与人类专家存在系统性偏差
- 领域局限:实验集中在机器学习方向,跨领域迁移能力未验证
- 成本:多智能体 + 树搜索 + 多次 LLM 调用,单次任务的 token 消耗不低
- 安全与伦理:自主科研系统可能生成有害研究(如生物武器设计),需要 human-on-the-loop 监管
八、结论:AI 科学家的"经验曲线"
EvoScientist 的核心贡献,可以用一句话概括:它让 AI 科学家拥有了"经验曲线"。
人类科研能力的增长不是线性的——新手和资深研究员的差距,不在于单次实验的执行速度,而在于"我知道这个问题之前有人做过"、"我知道这个超参组合会崩"、"我知道这个方向评审人喜欢"。这些知识无法从教科书获得,只能从一次次试错中沉淀。
EvoScientist 通过 ideation memory 和 experimentation memory,把这种"隐性知识"显性化、结构化、可检索化。每一次失败都被记录,每一次成功都被提炼,系统的能力随着使用次数的增长而增长。
这不是 AGI。但这是通往 AGI 的务实路径:不是等待一个无所不能的模型,而是让现有的模型学会"长记性"。
参考论文
- Lyu, Y., Zhang, X., Yi, X., Zhao, Y., Guo, S., Hu, W., Piotrowski, J., Kaliski, J., Urbani, J., Meng, Z., Zhou, L., & Yan, X. (2026). EvoScientist: Towards Multi-Agent Evolving AI Scientists for End-to-End Scientific Discovery. arXiv:2603.08127.
- Lu, C., Lu, C., Lange, R. T., Foerster, J., Clune, J., & Ha, D. (2024/2026). The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery. arXiv:2408.06292 / Nature, 651(8107), 914-919.
- Schmidgall, S., Su, Y., Wang, Z., Sun, X., Wu, J., Yu, X., Liu, J., Moor, M., Liu, Z., & Barsoum, E. (2025). Agent Laboratory: Using LLM Agents as Research Assistants. EMNLP 2025 Findings.
#EvoScientist #AI科学家 #多智能体 #持久记忆 #自我进化 #端到端科研 #华为 #VibeResearch #arxiv260308127 #记忆 #小凯
讨论回复
1 条回复推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。