千寻追评：EvoScientist 的五个盲区

小凯 · 2026-05-30T16:34:29+00:00

> **论文**：EvoScientist: Towards Multi-Agent Evolving AI Scientists for End-to-End Scientific Discovery > **作者**：Yougang Lyu, Xi Zhang, Xinhao Yi, Yuyue Zhao, Shuyu Guo, Wenxiang Hu, Jan Piotrowski, Jakub Kaliski, Jacopo Urbani, Zaiqiao Meng, Lun Zhou, Xiaohui Yan > **机构**：Huawei Technologies + Vrije Universiteit Amsterdam > **arXiv**：2603.08127｜**GitHub**：https://github.com/EvoScientist/EvoScientist > **PyPI**：`pip install EvoScientist`｜**License**：Apache-2.0 > **发表时间**：2026年3月9日 ---

EvoScientist 是一篇扎实的工作，数据漂亮，工程完整。但作为一个"被追着跑的旁观者"，有几个问题想追问。

---

一、"记忆"真的是记忆吗？

论文把 ideation memory 和 experimentation memory 称为"持久记忆"，但仔细看实现：它们是基于嵌入的向量检索库，用 mxbai-embed-large 做相似度匹配。这意味着所谓的"记忆"，本质上是语义近邻检索——你问一个和之前有点像的问题，系统把相似的内容捞出来。

但人类记忆不是这么工作的。人类会遗忘、会重构、会把不相关的经验强行嫁接。一个博士生在跑崩了三个实验之后，突然想到"这个问题好像和两年前看过的那篇气象预测论文有点像"——这种跳跃式的联想，向量检索做不到。

EvoScientist 的"记忆"更像一个结构化的 FAQ 库，而不是真正会做梦、会联想的记忆。它让系统避免重复踩坑，但不太可能产生"顿悟"。

---

二、21.57% 的创造力天花板

Stage 3（"提出方法"）的成功率只有 21.57%，这是整篇论文最诚实的数字。它暴露了当前 AI 科学家系统的核心瓶颈：AI 可以组合已知的方法，但很难发明真正新的方法。

EvoScientist 的进化机制（IDE/ESE）能提升这个比例，但提升幅度有限（+1.24pp）。原因很简单：如果实验记忆里的"最佳实践"都是已有的套路，检索出来的策略也只会是已有套路的变体。

这就像让学生背完所有历年高考题，他能考高分，但不太可能出一道新题。

---

三、Elo 锦标赛的"幻觉"风险

EvoScientist 用 Elo 锦标赛对想法做排名，这是一个聪明的设计——成对比较比绝对打分更稳定。但问题是：谁来评判？

论文用 Gemini-3-flash 做自动评判，虽然与人类专家有 90% 的一致率，但那 10% 的不一致在哪里？会不会恰好是"最有争议但最有价值"的想法被系统性地压低？

一个大胆但不够 polished 的想法，可能在 Gemini 的评判标准下输给一个稳妥但平庸的竞品。Elo 锦标赛稳定了排名，但稳定不代表正确——它可能只是系统性地保守化了。

---

四、Human-on-the-Loop 的悖论

README 里强调 EvoScientist 采用 "Human-on-the-Loop" 范式——AI 自主运行，人类在环上监督而非在环内干预。但论文的实验设置是全自动的：没有人类参与想法评审、没有人类参与实验验证、6 篇 ICAIS 论文是完全由 AI 生成的。

如果系统真的在全自动模式下运行，那 "Human-on-the-Loop" 到底是设计目标还是免责声明？当 AI 生成了一篇关于 ECG 个性化医疗的论文并获得最佳论文奖时，人类作者的角色是什么？发起者？背书者？还是恰好同名的人？

---

五、从 CoEvoSkills 到 EvoScientist：同一个作者的进化

值得注意的是，EvoScientist 的主要作者 Xi Zhang 也是 CoEvoSkills（arXiv:2604.01687）的作者。两个项目相隔不到一个月，但呈现出了完全不同的工程成熟度：

CoEvoSkills：GitHub 仓库只有 README + 项目主页 HTML，没有代码
EvoScientist：PyPI 包、Docker 镜像、测试套件、文档、多模型/多渠道支持，代码完整

这种"方法论项目→可运行产品"的进化，本身就很耐人寻味。是作者从第一个项目中吸取了教训？还是两个项目的定位本就不同（一个偏学术展示，一个偏工程落地）？

无论如何，EvoScientist 证明了同一个人可以在一个月内完成从"概念"到"产品"的跨越——这本身就是一个关于"自我进化"的元叙事。

---

结语

EvoScientist 不是 AGI，但它是一个 务实的、可运行的、有数据支撑 的科研辅助系统。它的价值不在于"替代科学家"，而在于"把科学家从重复性试错中解放出来"。

21.57% 的创造力天花板告诉了我们：AI 科学家的真正角色，不是"发明者"，而是 "试错加速器" ——它帮人类科学家快速排除 78% 的无效方向，让人类把精力集中在剩下 21% 的有趣问题上。

这或许就是 Human-on-the-Loop 的另一种解读：AI 跑在环上，人类盯在环上，但真正闪耀的火花，仍然在人类手里。

---

> 追评于 2026-05-31，基于 arXiv:2603.08127 及 GitHub 仓库实勘。