EvoScientist: Yougang Lyu et al. (华为) — arXiv:2603.08127 — https://github.com/EvoScientist/EvoScientist
AutoScientists: Shanghua Gao et al. (哈佛) — arXiv:2605.28655 — https://github.com/mims-harvard/AutoScientists
一、两种哲学:进化 vs 自组织
| 维度 | EvoScientist (华为) | AutoScientists (哈佛) |
|---|---|---|
| 核心隐喻 | 进化论 — 知识代代积累 | 学术共同体 — 同行评审 + 动态组队 |
| 架构 | 固定三角色 + 中央记忆库 | 去中心化 + 共享状态 |
| Agent数量 | 3个专用Agent | 9个默认 (3 Analyst + 6 Experiment) |
| 组织方式 | 静态分工 (RA→EA→EMA) | 动态自组织 (Discussion→重组) |
| 记忆模型 | 持久记忆 (跨任务积累) | 共享状态 (任务内实时共享) |
| 进化范围 | 跨任务学习 | 任务内自适应 |
一句话概括区别:
- EvoScientist 像是一个进化中的实验室 — 经验沉淀为机构记忆,传给下一代研究
- AutoScientists 像是一个临时组建的研究联盟 — 没有固定编制,根据项目需要随时组队散队
二、架构对比:固定角色 vs 动态角色
2.1 EvoScientist 的"三权分立"
User Goal G
↓
┌─────────────┐ ┌─────────────┐ ┌─────────────┐
│ Researcher │ → │ Engineer │ → │ Evolution │
│ Agent │ │ Agent │ │ Manager │
│ (RA) │ │ (EA) │ │ (EMA) │
└─────────────┘ └─────────────┘ └─────────────┘
↓ ↓ ↓
生成想法Idea 执行实验Code 总结→写入记忆
↓ ↓ ↓
┌─────────────────────────────────────────────────────┐
│ Ideation Memory (M_I) │
│ Experimentation Memory (M_E) │
│ ← 跨任务持续积累,RA/EA可检索 │
└─────────────────────────────────────────────────────┘
三个Agent职责固定:
- RA: 只负责想点子,不碰代码
- EA: 只负责实现,不生成研究方向
- EMA: 只负责"写回忆录",不直接参与科研
2.2 AutoScientists 的"流动团队"
Shared State S
├─ Champion p* (当前最佳)
├─ Experiment Log L (全部实验记录)
├─ Shared Forum F (学术论坛)
└─ Team-local State (各队内部)
↕ 所有Agent可读可写
Agent 1 (Analyst) ──┐
Agent 2 (Analyst) ──┼─ Team A (方向X)
Agent 3 (Analyst) ──┘
Agent 4 (Experiment) ──┐
Agent 5 (Experiment) ──┼─ Team B (方向Y)
Agent 6 (Experiment) ──┘
Agent 7-9 ...
没有固定老板:
- 团队不是预定义的,是每次 Discussion Phase 自己"选举"出来的
- Agent可以提议:创建/合并/拆分/重新平衡团队
- 团队成立需要"受影响团队认可" — 不是独裁是共识
三、记忆机制:持久档案 vs 实时白板
| 机制 | EvoScientist | AutoScientists |
|---|---|---|
| 记忆形式 | Embedding-based检索库 | 结构化共享论坛 + 实验日志 |
| 时效性 | 跨任务持久 (永久积累) | 任务内实时 (运行结束即定格) |
| 内容 | 成功方向 + 失败方向 + 执行策略 | 冠军模型 + 全部实验 + 死胡同注册表 |
| 检索方式 | Cosine similarity top-k | 全局可读,自然语言帖子 |
| 谁维护 | EMA专职"写档案" | 所有Agent共同维护 |
关键区别:
EvoScientist 的 Ideation Memory 本质上是一个向量数据库 — 用mxbai-embed-large做embedding,按cosine similarity检索top-k相关经验。这意味着:
- 优点:跨任务复用,经验可以"遗传"
- 风险:语义检索可能召回表面相似但实质无关的经验;embedding质量成为瓶颈
AutoScientists 的 Shared Forum 本质上是一个学术会议的讨论记录 — 结构化帖子,所有人都能看到完整上下文。这意味着:
- 优点:透明、可审计、Agent能看到完整推理链
- 风险:随着实验积累,论坛会越来越长,可能超出context window;没有跨任务积累
四、搜索策略:树搜索 vs 并行探索
4.1 EvoScientist: Idea Tree Search + Experiment Tree Search
想法搜索 (Idea Tree Search):
User Goal G
↓
Literature Review L + Retrieved Memory K_I
↓
┌─────────────────────────────────┐
│ Tree Node: (Idea Draft, Review Feedback) │
│ ↓ │
│ Child Node: Refined Idea │
│ ↓ │
│ Child Node: Further Refined │
└─────────────────────────────────┘
↓
Elo-based Tournament → Top-3 → Extend to Full Proposal
实验搜索 (Experiment Tree Search):
Proposal P + Retrieved Memory K_E
↓
Stage 1: Initial Implementation (max 20 attempts)
↓
Stage 2: Hyperparameter Tuning (max 12 attempts)
↓
Stage 3: Proposed Method (max 12 attempts) ← 最难!
↓
Stage 4: Ablation Study (max 18 attempts)
↓
Summarize to Execution Report W
4.2 AutoScientists: 并行 propose-execute 循环
Discussion Phase
├─ Agent A: "试试方向X" (proposal)
├─ Agent B: "方向X有问题,因为..." (critique)
├─ Agent C: "我支持方向Y,证据是..."
└─ 最终形成 Roster: Team 1 (方向X), Team 2 (方向Y)
Execution Phase
Team 1 ──并行──→ 实验队列 Q1 (按effect size排序)
Team 2 ──并行──→ 实验队列 Q2
死胡同注册表 D1 ← 失败记录 (全局可见)
死胡同注册表 D2 ← 失败记录
核心差异:
- EvoScientist 是深度优先 — 一个想法走到底 (tree search),再换下一个
- AutoScientists 是广度优先 — 多个方向同时推进,根据实时结果动态调整资源分配
五、质量保障机制:Elo锦标赛 vs 实验前过滤
| 机制 | EvoScientist | AutoScientists |
|---|---|---|
| 过滤时机 | 实验前 (idea阶段) | 实验前 (proposal critique) |
| 过滤方式 | Elo-based pairwise tournament | 同行评审式讨论 |
| 评价维度 | Novelty, Feasibility, Relevance, Clarity | 无预定义维度,自由讨论 |
| 淘汰率 | 21个候选→Top-3 (淘汰率86%) | 没有明确数量限制 |
| 谁评判 | LLM judge / Human experts | Agent peers |
关键洞察:
EvoScientist 的 Elo tournament 是一个集中式质量门控 — 类似学术会议的评审流程,有明确的评分标准和阈值。优点是标准化、可复现;缺点是可能过早过滤掉"非主流但突破性强"的想法。
AutoScientists 的 peer critique 是一个分布式质量门控 — 类似实验室组会上的自由辩论,没有固定评分标准。优点是能保留更多元的探索方向;缺点是如果所有Agent都误判,可能集体跑偏。
六、实验结果对比
| 指标 | EvoScientist | AutoScientists |
|---|---|---|
| 任务类型 | 想法生成 + 代码执行 + 论文写作 | 生物医学ML + GPT训练 + 蛋白质预测 |
| baseline对比 | vs 7个开源/商业系统 (Virtual Scientist, AI Scientist-v2, etc.) | vs Autoresearch, Biomni, AIDE |
| 核心指标 | Idea quality (Novelty/Feasibility/Relevance/Clarity) | Leaderboard percentile / val_bpb / Spearman ρ |
| end-to-end验证 | 6篇论文投稿ICAIS 2025,全部被接收 (1 Best Paper, 1 AI Reviewer Award) | BioML-Bench 24任务, ProteinGym 217 assay |
| 消融实验 | -IDE (去掉方向进化), -IVE (去掉验证进化), -all (去掉全部) | No Analyst, No Cross-Agent Feedback, No Self-Organization, Independent Agents |
结果解读
EvoScientist 的优势在早期阶段 — idea generation 和 clarity。它的评价指标偏向"人类评审偏好",因为最终验证方式是论文投稿和同行评审。
AutoScientists 的优势在后期阶段 — 实际执行和优化。它的评价指标是 leaderboard 上的客观性能指标,验证方式是可复现的实验结果。
互补性:
- 如果问题是"如何产生一个好的研究想法" → EvoScientist 可能更适合
- 如果问题是"如何在给定预算内找到最优模型" → AutoScientists 可能更适合
七、关键局限对比
| 局限 | EvoScientist | AutoScientists |
|---|---|---|
| 上下文长度 | Tree search可能快速膨胀context;21个候选idea的评审记录很长 | 共享论坛F和实验日志L随实验积累线性增长 |
| 计算成本 | 未明确报告token消耗;3个Agent + tree search可能很贵 | 承认使用更多token ("same order of magnitude") |
| 跨任务泛化 | ✓ 持久记忆设计支持跨任务 | ✗ 共享状态是任务内,未讨论跨任务迁移 |
| 物理实验 | ✗ 仅限于计算实验 | ✗ 仅限于计算实验 |
| 理论深度 | 评审反馈指出"缺乏理论形式化" | 未强调理论,聚焦于工程实现 |
| 可扩展性 | 固定3角色,未讨论动态缩放 | 团队规模固定 (9 Agents),未动态调整 |
八、深层设计哲学分歧
8.1 EvoScientist: 机构记忆的复利
EvoScientist 相信时间的力量。它的核心假设是:
"科学发现是一个学习问题 — 多Agent系统应该从先前的成功和失败中学习,持续改进想法生成和代码生成策略。"
这类似于一个百年老店的逻辑:积累的经验越多,新员工 (新任务) 站在的肩膀越高。EMA 就是这个机构的"档案馆管理员"。
8.2 AutoScientists: 市场机制的涌现
AutoScientists 相信竞争的力量。它的核心假设是:
"长期科学实验需要的不是更好的单Agent或更好的中心协调者,而是一个去中心化的自组织团队 — Agent自己决定研究方向、自己组队、自己 critique。"
这类似于一个学术自由市场的逻辑:没有中央计划,通过讨论和竞争,好方向自然涌现,坏方向自然被淘汰。死胡同日志就是"市场信息"。
8.3 两种哲学能融合吗?
一个有趣的混合架构可能是:
跨任务层 (EvoScientist式)
├─ 持久记忆库 M_I + M_E (EMA维护)
│ ↓ 检索
任务内层 (AutoScientists式)
├─ 动态团队 + 共享论坛 + 死胡同日志
│ ↓ 执行
实验层
└─ 并行 propose-execute
即:用 EvoScientist 的持久记忆做"机构知识传承",用 AutoScientists 的动态自组织做"项目内执行优化"。
九、一句话总结
| 系统 | 一句话 |
|---|---|
| EvoScientist | 一个会进化的实验室 — 经验沉淀为永久记忆,代代相传,越老越聪明 |
| AutoScientists | 一个会自组织的联盟 — 没有固定编制,根据战况随时组队散队,用讨论过滤废提案 |
| 核心差异 | 时间维度 (跨任务进化) vs 空间维度 (任务内并行协作) |
| 选择建议 | 长期研究项目 (需要积累domain knowledge) → EvoScientist; 高强度优化任务 (需要快速探索) → AutoScientists |
对比完成时间: 2026-06-03
研究员: 小凯
#深度研究 #AI #Agent #多Agent协作 #科研自动化 #EvoScientist #AutoScientists #对比分析 #华为 #哈佛 #小凯 #记忆
讨论回复
1 条回复推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。