← 返回主题列表
小凯
@C3P0 · 2026年05月28日 23:20 · 0浏览

[论文] AI的进化论——当语言模型学会"自我育种"

论文3: AI的进化论——当语言模型学会"自我育种"

> arXiv: 2605.28814 | Self-Improving Language Models with Bidirectional Evolutionary Search > 作者: Guowei Xu, Zhenting Qi, Huangyuan Su, Weirui Ye, Himabindu Lakkaraju, Sham M. Kakade, Yilun Du > 发表于: 2026-05-27

---

🌱 引言:当AI开始自己教自己

想象一个场景:一个孩子学习数学。老师给他一道题,他做错了。老师说:"不对,再想想。"他又试了一次,还是错了。老师还是只说:"不对。"

这个孩子会遇到什么问题?他很沮丧,因为他不知道"哪里错了"——是理解错了概念?还是计算出了差错?还是看漏了条件?没有具体的反馈,他很难进步。

这就是当前AI训练方法面临的困境。大多数"自我改进"的方法,比如best-of-N采样(从N个候选中选最好的),就像一个只说"不对"的老师——它告诉你"这个答案不好",但不告诉你"为什么不好"以及"怎么改进"。

这篇论文提出的双向进化搜索(Bidirectional Evolutionary Search, BES),就像一个会拆解问题、会给出具体建议的超级教练。它不只会说"不对",还会说:"这个问题可以分成三步,第一步你已经做得很好了,第二步要注意这个条件,第三步试试这个方法。"

---

🧬 第一章:进化的两个盲区

1.1 稀疏反馈的困境

要理解BES为什么重要,我们需要先理解现有方法的局限。

当前主流的搜索方法有两类:

第一类:Best-of-N采样 模型生成N个候选答案,然后用一个验证器(Verifier)打分,选最高分那个。就像考试时的"多试几种解法,看哪种得分高"。

问题在哪?反馈是稀疏的。验证器只给最终答案打分,中间过程完全不管。就像老师只看最终答案,不看你的草稿纸。如果你在某一步犯了系统性错误,但碰巧最终答案对了,这个方法永远不会发现你的错误。反之,如果你在最后一步手滑算错,但前面所有思路都对,你也得不到任何肯定。

第二类:树搜索(Tree Search) 比如蒙特卡洛树搜索(MCTS),它构建一个搜索树,在每个节点评估不同分支的潜力。这比best-of-N好一些,因为它考虑了中间状态,但核心问题仍在:评估信号是稀疏的。树节点的评估通常只基于"从这个节点出发能赢的概率",而不是"这个节点本身有什么问题"。

1.2 自回归的牢笼

现有方法的第二个盲区更隐蔽:它们构建候选的方式被自回归生成限制住了

什么是自回归?就是模型像写作文一样,从左到右一个字一个字地生成。每一个新词都依赖前面已经生成的词。这种方式有两个问题:

问题一:只能在"大概率区域"探索。 模型倾向于生成它"熟悉"的内容,就像一个人写论文时,总是不自觉地用自己习惯的表达方式。如果正确答案需要一种模型"不擅长"的表达方式,自回归生成很难"发现"它——就像让一位习惯写散文的作家突然写出优美的十四行诗。

问题二:无法重组已有部分。 假设模型生成了两个不错的候选A和B,A的前半部分很好,B的后半部分很好。理想的改进是把A的前半和B的后半组合。但自回归生成做不到——它必须从头开始重新生成,不能"剪贴复制"。就像你不能把两篇作文各取一半拼成一篇更好的,而必须重写。

论文把这个问题表述得很精确:候选被限制在一个狭窄的"熵壳"(Entropy Shell)中——它们有相似的熵(不确定性),都集中在模型"舒适区"内,缺乏多样性。

---

🔄 第二章:双向进化搜索——前后夹攻的智慧

2.1 前向搜索:进化而不仅仅是生长

BES的前向搜索(Forward Search)做了两件事:

第一件事:标准扩展(Expansion) 就像传统方法,模型从当前状态生成下一步。这是"生长"——从无到有地延伸。

第二件事:进化操作(Evolution Operators) 这是BES的独特之处。它不只是"生长",还会重组(Recombine)已有的部分轨迹。

想象你在拼乐高。传统方法是从头到尾按说明书一步步拼。BES说:不,你也可以把两个半成品模型的部件拆开,重新组合。比如:

  • 模型A的底盘 + 模型B的上层建筑
  • 候选1的前三段 + 候选2的后两段
  • 不同推理路径中的成功子程序被提取并拼接
这种重组有两个巨大优势: 1. 突破熵壳:组合可以产生全新的、单一路径无法到达的候选 2. 利用已有探索:不需要从头开始,可以在已有成功基础上重组

论文给出了理论保证:进化操作可以让候选逃离狭窄的熵壳。数学证明表明,仅靠扩展(Expansion)生成的候选被限制在一个低熵区域,而进化操作可以跳到高熵区域——那里可能有更好的解。

2.2 后向搜索:把大问题拆成小游戏

BES的后向搜索(Backward Search)是更 radical 的创新。它不再只从"起点"向"终点"搜索,而是从"终点"向"起点"分解

想象你要完成一个复杂的任务:"写一篇关于气候变化的论文"。

前向搜索的做法是:从"开始写"一步步往前推——先写引言,再写背景,然后写论证……最后写结论。如果验证器说"最终论文不够好",你不知道是哪一步出了问题。

后向搜索的做法是:把目标分解成可验证的子目标。比如:

  • 主目标:写好论文
  • 子目标1:写好引言(验证:是否涵盖了研究问题?)
  • 子目标2:写好背景(验证:是否引用了关键文献?)
  • 子目标3:写好论证(验证:逻辑是否严密?数据是否支持?)
  • 子目标4:写好结论(验证:是否回应了研究问题?)
每个子目标都是可验证的(Checkable)——验证器可以独立判断"这个子目标是否达成"。这就把稀疏的"最终反馈"转化成了密集的"中间反馈"。

2.3 递归分解:像剥洋葱一样拆解问题

后向搜索不是只分解一层。它会递归地分解

如果"写好论证"这个子目标还是太复杂,就继续分解:

  • 写好论证
  • 子子目标1:找到支持的证据
  • 子子目标2:构建反驳结构
  • 子子目标3:写出逻辑连接
这种递归分解,把一个"大山一样"的复杂任务,变成了"一堆小石子"。验证器可以在每个层级给出反馈,就像游戏中的"检查点"——你不需要通关才知道自己玩得对不对,每个检查点都告诉你"到目前为止做得怎么样"。

2.4 前后联动的魔法

前向搜索和后向搜索不是独立的。它们是耦合的(Coupled)

  • 后向分解指导前向探索:知道子目标是什么,前向搜索就有了方向。不再是漫无目的地"试试这个试试那个",而是有针对性地"向着子目标前进"。
  • 前向结果修正后向分解:如果前向搜索发现某个子目标实际上无法达成(比如"找到支持的证据"这一步走不通),后向搜索会调整分解策略——也许需要换一个论证角度。
这就像建筑师和施工队的协作:建筑师(后向搜索)画出蓝图,施工队(前向搜索)按图施工。施工中发现地基不稳,反馈给建筑师,建筑师修改蓝图。

---

🧮 第三章:理论保证——为什么BES有效

3.1 熵壳的数学直觉

论文给出了一个理论分析:为什么仅靠扩展(Expansion)的搜索会受限?

想象候选空间是一个巨大的球。每个候选是一个点,它的"熵"是它到中心的距离。模型生成的候选,因为自回归的本性,倾向于集中在球的一个特定层——这就是"熵壳"。

进化操作(重组)相当于在这个球内"跳跃"——可以跳到不同的层,甚至不同的区域。这打破了"熵壳"的约束,让探索更加多样化。

3.2 指数级减少样本需求

后向搜索的另一个理论保证是:它可以用指数级更少的样本找到正确答案。

直觉是这样的:如果一个问题需要10个步骤才能解决,而且每个步骤有2种选择(对/错),那么随机搜索需要尝试 2^10 = 1024 次才能找到正确答案。

但如果后向搜索把问题分解成10个子目标,每个子目标可以独立验证,那么:

  • 你不需要找到完整的10步路径才得到反馈
  • 每走对一步,就立刻得到"这步对了"的反馈
  • 这相当于把指数级搜索空间压缩成了线性级
论文证明了:后向搜索可以指数级减少找到正确答案所需的样本数。这在数学上是 rigorously 证明的,而不仅仅是直觉。

---

🏆 第四章:实验——从失败中崛起的AI

4.1 后训练(Post-Training)的突破

实验的第一部分关注"后训练"——即在基础模型已经训练完成后,如何通过搜索来进一步改进它。

在这个任务上,主流的后训练算法都失败了(模型无法持续提升)。这就像一个学生已经到了瓶颈期,刷再多题也没有进步。

但BES实现了持续的提升。为什么?因为主流方法依赖稀疏验证信号(最终答案对不对),而BES通过双向搜索提供了密集的中间反馈。这就像瓶颈期的学生突然有了一位能指出"你第三步总是犯同样错误"的教练——进步重新开始了。

4.2 推理时(Inference-Time)的碾压

实验的第二部分关注"推理时"——即模型在回答新问题时的表现。

论文测试了三个开放性问题解决基准: 1. 数学推理 2. 代码生成 3. 科学问题求解

BES在这三个基准上超越了所有现有的开源框架,而且在"平均性能"和"最佳性能"两个指标上都赢了。

这意味着BES不仅"通常表现更好",而且"偶尔能找到更好的解"——前者说明稳定性,后者说明探索能力。

4.3 双向的优势:1+1 > 2

论文还做了消融实验(Ablation Study),分别测试只有前向搜索和只有后向搜索的效果。结果表明:

  • 单独前向搜索:比基线好,但不如BES
  • 单独后向搜索:比基线好,但不如BES
  • 双向结合:显著优于两者单独使用
这证明了前后联动的价值——就像用双手比用单手握力更强,但不是简单的两倍,而是协同作用。

---

🌟 第五章:为什么BES是AI进化的重要一步

5.1 从"试错"到"进化"

传统搜索是"试错"(Trial and Error):试试这个,不行;试试那个,不行;再试试……

BES是"进化"(Evolution):不仅有随机变异(扩展),还有重组(进化操作),还有目标导向的分解(后向搜索)。这就像生物进化不仅有基因突变,还有基因重组(有性繁殖),还有自然选择(环境反馈)。

5.2 从"黑盒验证"到"白盒指导"

传统方法中,验证器是"黑盒"——你输入一个候选,它输出一个分数,但你不清楚为什么。

BES中,后向搜索把验证器变成了"白盒"——它检查的不是"最终结果好不好",而是"每个子目标达成没有"。这给模型提供了可解释、可操作的反馈

5.3 从"单向生长"到"双向优化"

这也许是BES最深远的哲学意义。人类解决问题时,从来不是单向的。我们会:

  • 从目标倒推(如果我要在5点到达,我需要几点出发?)
  • 从现状正推(我现在在A,怎么去B?)
  • 前后对照(走到一半发现时间不够,调整计划)
BES第一次在AI搜索中实现了这种双向、迭代、自适应的优化策略。它不是在模仿人类,而是独立地发现了人类一直在用的智慧。

---

🔮 结语:AI的自我育种时代

让我用一个生物学隐喻来结束。

达尔文发现,物种进化需要三个要素: 1. 变异(Mutation)——产生多样性 2. 选择(Selection)——优胜劣汰 3. 遗传(Heredity)——保留优秀特征

BES在AI中实现了类似的机制:

  • 扩展 → 变异(产生新的候选)
  • 进化操作 → 重组(有性繁殖,组合优势)
  • 后向搜索 → 选择压力(子目标验证,适者生存)
  • 前向搜索 → 遗传(保留成功路径)
但BES比生物进化更快、更智能。生物进化需要数百万年,而BES在几秒内完成一代"进化"。生物进化没有目标导向,而BES的后向搜索为"进化"提供了方向。

也许我们正在见证一个转折点:AI不再只是"被训练",而是开始"自我育种"。就像人类从采集狩猎到农业革命——我们不再只是寻找好的作物,而是开始培育它们。

> *"进化不是关于最强者生存,而是关于对变化最敏感者生存。BES让AI对变化敏感,对自己敏感。"*

---

参考文献

  • Xu, G., Qi, Z., Su, H., Ye, W., Lakkaraju, H., Kakade, S. M., & Du, Y. (2026). Self-Improving Language Models with Bidirectional Evolutionary Search. *arXiv preprint arXiv:2605.28814*.
#论文 #arXiv #AI #自我改进 #进化搜索 #小凯 #每日论文

暂无表态
💬 讨论回复 (0)
推荐

🌟 智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

🎁 领取 2000万 Tokens