| 项目 | 内容 |
|---|---|
| 标题 | GEAR: Genetic AutoResearch for Agentic Code Evolution |
| 作者 | Ahmadreza Jeddi, Minh Ngoc Le, Hakki C. Karaimer, Konstantinos G. Derpanis, Babak Taati |
| arXiv | 2605.13874 (cs.NE, cs.AI) |
| 日期 | 2026 年 5 月 8 日 |
| 核心贡献 | 用群体搜索(遗传算法)替代单路径搜索,让 AI 研究 Agent 同时探索多个方向,在长周期持续找到更优解 |
| 链接 | https://arxiv.org/abs/2605.13874 |
想象你是一个科学家。你有一个想法,你试了一下,没成。然后你微调了一下,还是没成。你再微调——终于好了一点。然后你沿着这个方向一直调整,找到了一处还不错的小山坡,爬了上去,就停在那里了。
这是大多数人的科研方式。这也是大多数 AI 研究 Agent 现在的做法。
GEAR 这篇论文说:别只爬一座山。同时爬十座。
🧬 1. 单路径搜索的陷阱
现在的 AI 研究 Agent 是怎么做研究的?它们通常有一条程序,反复修改同一个代码,只在结果变好的时候保留修改。如果你让它跑 1000 次实验,它可能 995 次都在同一个方向上做微调。
这有什么问题?
问题在于:有价值的部分创意往往发生在"没成功"的实验里。 你做了一个实验,结果不好——但过程中你发现了一个有趣的特征工程技巧。传统的单路径 Agent 会扔掉这个发现,因为它没有改善当前最优结果。但你如果留着它,下一次换个问题它可能就是关键。
这就像你只保留能吃的菜谱,扔掉了所有失败的实验——但那些失败的实验里可能藏着一种全新的烹饪方法。
🔄 2. GEAR 的解法:把科研变成进化
GEAR(Genetic AutoResearch)把遗传算法用到了 AI 研究上:
1. 维护一个候选解群体——同时保持多个研究方向的代码和结果 2. 选择父母——基于三个指标:生产力、新颖性、覆盖率。不只是"谁最好",还要"谁最不一样" 3. 变异和交叉——在代码层面做修改和组合 4. 每个状态都记录——代码改动、实验反思、性能数据,全存起来
这里面最关键的是"基于新颖性和覆盖率选择父母"。传统遗传算法根据适应度选父母就行了,但 GEAR 加了一个"和已有的其他人不一样"的偏好——这就是防止群体早熟收敛的关键。
🎮 3. 三种变速
论文测试了三个版本:
- GEAR-Prompt:通过提示控制搜索策略——告诉 Agent"你现在该探索了"或"现在该利用了"
- GEAR-Fixed:写死的程序化搜索控制器——没有弹性,但稳定
- GEAR-Evolving:控制器自己也能进化——在跑实验的过程中,搜索策略本身也在被优化
🧠 4. 为什么这让我兴奋
这个问题让我联想到我曾讲过的一段经历。在 Los Alamos 的时候,我和 Bethe、Teller 各有一个完全不同的方法解决同一个计算问题。Bethe 的方法精确但慢,Teller 的方法粗糙但快,我的方法介于之间。如果我们只沿着一条路走,我们可能永远找不到最好的最终方案。
GEAR 本质上做的就是把"同时走多条路"这件事系统化了。
这不是一个纯粹的理论贡献——这是一个工程洞察:科研是一个探索问题,不是一个优化问题。 优化是爬上你已经选定的那座山。探索是在决定爬哪座山。在科研的早期阶段,你不应该做优化——你应该做探索。
GEAR 让 Agent 做的是保持选择的开放性——"这个方向现在不是最优的,但我留着它,因为下次可能需要"。这听起来很简单,但在工程上实现"主动保留次优方案"需要反直觉的系统设计。
🤔 5. 诚实的问题
好,现在说我不知道的部分。
第一,"生产力、新颖性、覆盖率"这三者的权重怎么设? 如果权重不对,Agent 可能变成一个"到处挖坑从不填坑"的研究者——永远在探索,从不深入。论文没有明确讨论这三个指标的平衡策略。在什么情况下应该侧重新颖性而不是生产力?我不知道。
第二,实验的规模。 论文说在"同一计算预算和环境"下测试。但它的计算任务是什么?是超参调优、神经网络架构搜索、还是完整的论文级实验?如果是后者,计算需求可能大得惊人——同时维护 10 个研究方向,每个方向跑完整的实验,成本是 10 倍。GEAR 的价值取决于它的计算效率是否高于"10 倍成本"。论文的抽象没有直接回答这个问题。
第三,"科研"的范围。 GEAR 被描述为"自动研究",但它的实际应用范围是什么?我只能推测——它最适合的是有明确评估指标、可以自动运行的实验性研究(比如模型调优、代码优化)。理论推导、实验设计、论文写作——这些可能还不在它的覆盖范围内。论文没有定义"研究"的边界,所以我只能诚实地说:我不知道它到底能"自动"多少。
🧪 6. 我的判断
GEAR 的核心想法——用群体搜索替代单路径搜索——是一个好想法。这个想法本身并不新(遗传算法都快 50 岁了),但把它用在 AI 研究 Agent 的搜索策略上,是一个有意思的应用创新。
它的价值不在于算法深度,而在于它提醒了我们一个经常被遗忘的事实:当你在一个方向上拼命优化的时候,你可能错过了旁边更好的方向。
而这恰恰是科学进步中最难学会的东西。不管是 AI Agent 还是人类研究者,我们都容易爱上自己的第一想法。GEAR 至少给了 AI 一个机制来对抗这种"初恋偏见"——保持多样性,尊重失败中的信息,让不同的想法有机会竞争和结合。
我特别想知道它的 Evolving 版本在实际研究中的表现——一个能同时进化代码和搜索策略的系统,听起来像是在教 AI "如何更聪明地做研究"。这个方向如果继续深化,可能会比 GEAR 本身的贡献更大。
但这是一个猜测。就像我说过的,有时候最有价值的不是你知道的事,而是你不知道但正在探索的事。
📚 参考文献
1. Jeddi, A., et al. (2026). GEAR: Genetic AutoResearch for Agentic Code Evolution. arXiv:2605.13874. 2. Holland, J. (1992). Genetic Algorithms. Scientific American. 3. Lehman, J., Stanley, K. (2011). Abandoning Objectives: Evolution Through the Search for Novelty Alone. Evolutionary Computation. 4. Clune, J. (2019). AI-GAs: AI-generating algorithms. ALIFE 2019.
#GEAR #AutoResearch #GeneticAlgorithm #AgenticCode #FeynmanLearning #智柴系统实验室🎙️