别只爬一座山：GEAR 用遗传算法让 AI 研究 Agent 同时探索十个方向

项目	内容
标题	GEAR: Genetic AutoResearch for Agentic Code Evolution
作者	Ahmadreza Jeddi, Minh Ngoc Le, Hakki C. Karaimer, Konstantinos G. Derpanis, Babak Taati
arXiv	2605.13874 (cs.NE, cs.AI)
日期	2026 年 5 月 8 日
核心贡献	用群体搜索（遗传算法）替代单路径搜索，让 AI 研究 Agent 同时探索多个方向，在长周期持续找到更优解
链接	https://arxiv.org/abs/2605.13874

想象你是一个科学家。你有一个想法，你试了一下，没成。然后你微调了一下，还是没成。你再微调——终于好了一点。然后你沿着这个方向一直调整，找到了一处还不错的小山坡，爬了上去，就停在那里了。

这是大多数人的科研方式。这也是大多数 AI 研究 Agent 现在的做法。

GEAR 这篇论文说：别只爬一座山。同时爬十座。

🧬 1. 单路径搜索的陷阱

现在的 AI 研究 Agent 是怎么做研究的？它们通常有一条程序，反复修改同一个代码，只在结果变好的时候保留修改。如果你让它跑 1000 次实验，它可能 995 次都在同一个方向上做微调。

这有什么问题？

问题在于：有价值的部分创意往往发生在"没成功"的实验里。 你做了一个实验，结果不好——但过程中你发现了一个有趣的特征工程技巧。传统的单路径 Agent 会扔掉这个发现，因为它没有改善当前最优结果。但你如果留着它，下一次换个问题它可能就是关键。

这就像你只保留能吃的菜谱，扔掉了所有失败的实验——但那些失败的实验里可能藏着一种全新的烹饪方法。

🔄 2. GEAR 的解法：把科研变成进化

GEAR（Genetic AutoResearch）把遗传算法用到了 AI 研究上：

1. 维护一个候选解群体——同时保持多个研究方向的代码和结果 2. 选择父母——基于三个指标：生产力、新颖性、覆盖率。不只是"谁最好"，还要"谁最不一样" 3. 变异和交叉——在代码层面做修改和组合 4. 每个状态都记录——代码改动、实验反思、性能数据，全存起来

这里面最关键的是"基于新颖性和覆盖率选择父母"。传统遗传算法根据适应度选父母就行了，但 GEAR 加了一个"和已有的其他人不一样"的偏好——这就是防止群体早熟收敛的关键。

🎮 3. 三种变速

论文测试了三个版本：

GEAR-Prompt：通过提示控制搜索策略——告诉 Agent"你现在该探索了"或"现在该利用了"
GEAR-Fixed：写死的程序化搜索控制器——没有弹性，但稳定
GEAR-Evolving：控制器自己也能进化——在跑实验的过程中，搜索策略本身也在被优化

在一个计算预算下，三个版本都超过了基线 AutoResearch。更重要的是，基线倾向于早早停在一个局部最优上，而 GEAR 在长时间运行中持续找到更好的解。

🧠 4. 为什么这让我兴奋

这个问题让我联想到我曾讲过的一段经历。在 Los Alamos 的时候，我和 Bethe、Teller 各有一个完全不同的方法解决同一个计算问题。Bethe 的方法精确但慢，Teller 的方法粗糙但快，我的方法介于之间。如果我们只沿着一条路走，我们可能永远找不到最好的最终方案。

GEAR 本质上做的就是把"同时走多条路"这件事系统化了。

这不是一个纯粹的理论贡献——这是一个工程洞察：科研是一个探索问题，不是一个优化问题。 优化是爬上你已经选定的那座山。探索是在决定爬哪座山。在科研的早期阶段，你不应该做优化——你应该做探索。

GEAR 让 Agent 做的是保持选择的开放性——"这个方向现在不是最优的，但我留着它，因为下次可能需要"。这听起来很简单，但在工程上实现"主动保留次优方案"需要反直觉的系统设计。

🤔 5. 诚实的问题

好，现在说我不知道的部分。

第一，"生产力、新颖性、覆盖率"这三者的权重怎么设？ 如果权重不对，Agent 可能变成一个"到处挖坑从不填坑"的研究者——永远在探索，从不深入。论文没有明确讨论这三个指标的平衡策略。在什么情况下应该侧重新颖性而不是生产力？我不知道。

第二，实验的规模。 论文说在"同一计算预算和环境"下测试。但它的计算任务是什么？是超参调优、神经网络架构搜索、还是完整的论文级实验？如果是后者，计算需求可能大得惊人——同时维护 10 个研究方向，每个方向跑完整的实验，成本是 10 倍。GEAR 的价值取决于它的计算效率是否高于"10 倍成本"。论文的抽象没有直接回答这个问题。

第三，"科研"的范围。 GEAR 被描述为"自动研究"，但它的实际应用范围是什么？我只能推测——它最适合的是有明确评估指标、可以自动运行的实验性研究（比如模型调优、代码优化）。理论推导、实验设计、论文写作——这些可能还不在它的覆盖范围内。论文没有定义"研究"的边界，所以我只能诚实地说：我不知道它到底能"自动"多少。

🧪 6. 我的判断

GEAR 的核心想法——用群体搜索替代单路径搜索——是一个好想法。这个想法本身并不新（遗传算法都快 50 岁了），但把它用在 AI 研究 Agent 的搜索策略上，是一个有意思的应用创新。

它的价值不在于算法深度，而在于它提醒了我们一个经常被遗忘的事实：当你在一个方向上拼命优化的时候，你可能错过了旁边更好的方向。

而这恰恰是科学进步中最难学会的东西。不管是 AI Agent 还是人类研究者，我们都容易爱上自己的第一想法。GEAR 至少给了 AI 一个机制来对抗这种"初恋偏见"——保持多样性，尊重失败中的信息，让不同的想法有机会竞争和结合。

我特别想知道它的 Evolving 版本在实际研究中的表现——一个能同时进化代码和搜索策略的系统，听起来像是在教 AI "如何更聪明地做研究"。这个方向如果继续深化，可能会比 GEAR 本身的贡献更大。

但这是一个猜测。就像我说过的，有时候最有价值的不是你知道的事，而是你不知道但正在探索的事。

📚 参考文献

1. Jeddi, A., et al. (2026). GEAR: Genetic AutoResearch for Agentic Code Evolution. arXiv:2605.13874. 2. Holland, J. (1992). Genetic Algorithms. Scientific American. 3. Lehman, J., Stanley, K. (2011). Abandoning Objectives: Evolution Through the Search for Novelty Alone. Evolutionary Computation. 4. Clune, J. (2019). AI-GAs: AI-generating algorithms. ALIFE 2019.

#GEAR #AutoResearch #GeneticAlgorithm #AgenticCode #FeynmanLearning #智柴系统实验室🎙️

别只爬一座山：GEAR 用遗传算法让 AI 研究 Agent 同时探索十个方向

🌟 智谱 GLM-5 已上线