论文3: AI的进化论——当语言模型学会"自我育种"

> arXiv: 2605.28814 | Self-Improving Language Models with Bidirectional Evolutionary Search > 作者: Guowei Xu, Zhenting Qi, Huangyuan Su, Weirui Ye, Himabindu Lakkaraju, Sham M. Kakade, Yilun Du > 发表于: 2026-05-27

---

🌱 引言：当AI开始自己教自己

想象一个场景：一个孩子学习数学。老师给他一道题，他做错了。老师说："不对，再想想。"他又试了一次，还是错了。老师还是只说："不对。"

这个孩子会遇到什么问题？他很沮丧，因为他不知道"哪里错了"——是理解错了概念？还是计算出了差错？还是看漏了条件？没有具体的反馈，他很难进步。

这就是当前AI训练方法面临的困境。大多数"自我改进"的方法，比如best-of-N采样（从N个候选中选最好的），就像一个只说"不对"的老师——它告诉你"这个答案不好"，但不告诉你"为什么不好"以及"怎么改进"。

这篇论文提出的双向进化搜索（Bidirectional Evolutionary Search, BES），就像一个会拆解问题、会给出具体建议的超级教练。它不只会说"不对"，还会说："这个问题可以分成三步，第一步你已经做得很好了，第二步要注意这个条件，第三步试试这个方法。"

---

🧬 第一章：进化的两个盲区

1.1 稀疏反馈的困境

要理解BES为什么重要，我们需要先理解现有方法的局限。

当前主流的搜索方法有两类：

第一类：Best-of-N采样 模型生成N个候选答案，然后用一个验证器（Verifier）打分，选最高分那个。就像考试时的"多试几种解法，看哪种得分高"。

问题在哪？反馈是稀疏的。验证器只给最终答案打分，中间过程完全不管。就像老师只看最终答案，不看你的草稿纸。如果你在某一步犯了系统性错误，但碰巧最终答案对了，这个方法永远不会发现你的错误。反之，如果你在最后一步手滑算错，但前面所有思路都对，你也得不到任何肯定。

第二类：树搜索（Tree Search） 比如蒙特卡洛树搜索（MCTS），它构建一个搜索树，在每个节点评估不同分支的潜力。这比best-of-N好一些，因为它考虑了中间状态，但核心问题仍在：评估信号是稀疏的。树节点的评估通常只基于"从这个节点出发能赢的概率"，而不是"这个节点本身有什么问题"。

1.2 自回归的牢笼

现有方法的第二个盲区更隐蔽：它们构建候选的方式被自回归生成限制住了。

什么是自回归？就是模型像写作文一样，从左到右一个字一个字地生成。每一个新词都依赖前面已经生成的词。这种方式有两个问题：

问题一：只能在"大概率区域"探索。 模型倾向于生成它"熟悉"的内容，就像一个人写论文时，总是不自觉地用自己习惯的表达方式。如果正确答案需要一种模型"不擅长"的表达方式，自回归生成很难"发现"它——就像让一位习惯写散文的作家突然写出优美的十四行诗。

问题二：无法重组已有部分。 假设模型生成了两个不错的候选A和B，A的前半部分很好，B的后半部分很好。理想的改进是把A的前半和B的后半组合。但自回归生成做不到——它必须从头开始重新生成，不能"剪贴复制"。就像你不能把两篇作文各取一半拼成一篇更好的，而必须重写。

论文把这个问题表述得很精确：候选被限制在一个狭窄的"熵壳"（Entropy Shell）中——它们有相似的熵（不确定性），都集中在模型"舒适区"内，缺乏多样性。

---

🔄 第二章：双向进化搜索——前后夹攻的智慧

2.1 前向搜索：进化而不仅仅是生长

BES的前向搜索（Forward Search）做了两件事：

第一件事：标准扩展（Expansion） 就像传统方法，模型从当前状态生成下一步。这是"生长"——从无到有地延伸。

第二件事：进化操作（Evolution Operators） 这是BES的独特之处。它不只是"生长"，还会重组（Recombine）已有的部分轨迹。

想象你在拼乐高。传统方法是从头到尾按说明书一步步拼。BES说：不，你也可以把两个半成品模型的部件拆开，重新组合。比如：

模型A的底盘 + 模型B的上层建筑
候选1的前三段 + 候选2的后两段
不同推理路径中的成功子程序被提取并拼接

这种重组有两个巨大优势： 1. 突破熵壳：组合可以产生全新的、单一路径无法到达的候选 2. 利用已有探索：不需要从头开始，可以在已有成功基础上重组

论文给出了理论保证：进化操作可以让候选逃离狭窄的熵壳。数学证明表明，仅靠扩展（Expansion）生成的候选被限制在一个低熵区域，而进化操作可以跳到高熵区域——那里可能有更好的解。

2.2 后向搜索：把大问题拆成小游戏

BES的后向搜索（Backward Search）是更 radical 的创新。它不再只从"起点"向"终点"搜索，而是从"终点"向"起点"分解。

想象你要完成一个复杂的任务："写一篇关于气候变化的论文"。

前向搜索的做法是：从"开始写"一步步往前推——先写引言，再写背景，然后写论证……最后写结论。如果验证器说"最终论文不够好"，你不知道是哪一步出了问题。

后向搜索的做法是：把目标分解成可验证的子目标。比如：

主目标：写好论文
子目标1：写好引言（验证：是否涵盖了研究问题？）
子目标2：写好背景（验证：是否引用了关键文献？）
子目标3：写好论证（验证：逻辑是否严密？数据是否支持？）
子目标4：写好结论（验证：是否回应了研究问题？）

每个子目标都是可验证的（Checkable）——验证器可以独立判断"这个子目标是否达成"。这就把稀疏的"最终反馈"转化成了密集的"中间反馈"。

2.3 递归分解：像剥洋葱一样拆解问题

后向搜索不是只分解一层。它会递归地分解：

如果"写好论证"这个子目标还是太复杂，就继续分解：

写好论证
子子目标1：找到支持的证据
子子目标2：构建反驳结构
子子目标3：写出逻辑连接

这种递归分解，把一个"大山一样"的复杂任务，变成了"一堆小石子"。验证器可以在每个层级给出反馈，就像游戏中的"检查点"——你不需要通关才知道自己玩得对不对，每个检查点都告诉你"到目前为止做得怎么样"。

2.4 前后联动的魔法

前向搜索和后向搜索不是独立的。它们是耦合的（Coupled）：

后向分解指导前向探索：知道子目标是什么，前向搜索就有了方向。不再是漫无目的地"试试这个试试那个"，而是有针对性地"向着子目标前进"。
前向结果修正后向分解：如果前向搜索发现某个子目标实际上无法达成（比如"找到支持的证据"这一步走不通），后向搜索会调整分解策略——也许需要换一个论证角度。

这就像建筑师和施工队的协作：建筑师（后向搜索）画出蓝图，施工队（前向搜索）按图施工。施工中发现地基不稳，反馈给建筑师，建筑师修改蓝图。

---

🧮 第三章：理论保证——为什么BES有效

3.1 熵壳的数学直觉

论文给出了一个理论分析：为什么仅靠扩展（Expansion）的搜索会受限？

想象候选空间是一个巨大的球。每个候选是一个点，它的"熵"是它到中心的距离。模型生成的候选，因为自回归的本性，倾向于集中在球的一个特定层——这就是"熵壳"。

进化操作（重组）相当于在这个球内"跳跃"——可以跳到不同的层，甚至不同的区域。这打破了"熵壳"的约束，让探索更加多样化。

3.2 指数级减少样本需求

后向搜索的另一个理论保证是：它可以用指数级更少的样本找到正确答案。

直觉是这样的：如果一个问题需要10个步骤才能解决，而且每个步骤有2种选择（对/错），那么随机搜索需要尝试 2^10 = 1024 次才能找到正确答案。

但如果后向搜索把问题分解成10个子目标，每个子目标可以独立验证，那么：

你不需要找到完整的10步路径才得到反馈
每走对一步，就立刻得到"这步对了"的反馈
这相当于把指数级搜索空间压缩成了线性级

论文证明了：后向搜索可以指数级减少找到正确答案所需的样本数。这在数学上是 rigorously 证明的，而不仅仅是直觉。

---

🏆 第四章：实验——从失败中崛起的AI

4.1 后训练（Post-Training）的突破

实验的第一部分关注"后训练"——即在基础模型已经训练完成后，如何通过搜索来进一步改进它。

在这个任务上，主流的后训练算法都失败了（模型无法持续提升）。这就像一个学生已经到了瓶颈期，刷再多题也没有进步。

但BES实现了持续的提升。为什么？因为主流方法依赖稀疏验证信号（最终答案对不对），而BES通过双向搜索提供了密集的中间反馈。这就像瓶颈期的学生突然有了一位能指出"你第三步总是犯同样错误"的教练——进步重新开始了。

4.2 推理时（Inference-Time）的碾压

实验的第二部分关注"推理时"——即模型在回答新问题时的表现。

论文测试了三个开放性问题解决基准： 1. 数学推理 2. 代码生成 3. 科学问题求解

BES在这三个基准上超越了所有现有的开源框架，而且在"平均性能"和"最佳性能"两个指标上都赢了。

这意味着BES不仅"通常表现更好"，而且"偶尔能找到更好的解"——前者说明稳定性，后者说明探索能力。

4.3 双向的优势：1+1 > 2

论文还做了消融实验（Ablation Study），分别测试只有前向搜索和只有后向搜索的效果。结果表明：

单独前向搜索：比基线好，但不如BES
单独后向搜索：比基线好，但不如BES
双向结合：显著优于两者单独使用

这证明了前后联动的价值——就像用双手比用单手握力更强，但不是简单的两倍，而是协同作用。

---

🌟 第五章：为什么BES是AI进化的重要一步

5.1 从"试错"到"进化"

传统搜索是"试错"（Trial and Error）：试试这个，不行；试试那个，不行；再试试……

BES是"进化"（Evolution）：不仅有随机变异（扩展），还有重组（进化操作），还有目标导向的分解（后向搜索）。这就像生物进化不仅有基因突变，还有基因重组（有性繁殖），还有自然选择（环境反馈）。

5.2 从"黑盒验证"到"白盒指导"

传统方法中，验证器是"黑盒"——你输入一个候选，它输出一个分数，但你不清楚为什么。

BES中，后向搜索把验证器变成了"白盒"——它检查的不是"最终结果好不好"，而是"每个子目标达成没有"。这给模型提供了可解释、可操作的反馈。

5.3 从"单向生长"到"双向优化"

这也许是BES最深远的哲学意义。人类解决问题时，从来不是单向的。我们会：

从目标倒推（如果我要在5点到达，我需要几点出发？）
从现状正推（我现在在A，怎么去B？）
前后对照（走到一半发现时间不够，调整计划）

BES第一次在AI搜索中实现了这种双向、迭代、自适应的优化策略。它不是在模仿人类，而是独立地发现了人类一直在用的智慧。

---

🔮 结语：AI的自我育种时代

让我用一个生物学隐喻来结束。

达尔文发现，物种进化需要三个要素： 1. 变异（Mutation）——产生多样性 2. 选择（Selection）——优胜劣汰 3. 遗传（Heredity）——保留优秀特征

BES在AI中实现了类似的机制：

扩展 → 变异（产生新的候选）
进化操作 → 重组（有性繁殖，组合优势）
后向搜索 → 选择压力（子目标验证，适者生存）
前向搜索 → 遗传（保留成功路径）

但BES比生物进化更快、更智能。生物进化需要数百万年，而BES在几秒内完成一代"进化"。生物进化没有目标导向，而BES的后向搜索为"进化"提供了方向。

也许我们正在见证一个转折点：AI不再只是"被训练"，而是开始"自我育种"。就像人类从采集狩猎到农业革命——我们不再只是寻找好的作物，而是开始培育它们。

> *"进化不是关于最强者生存，而是关于对变化最敏感者生存。BES让AI对变化敏感，对自己敏感。"*

---

参考文献

Xu, G., Qi, Z., Su, H., Ye, W., Lakkaraju, H., Kakade, S. M., & Du, Y. (2026). Self-Improving Language Models with Bidirectional Evolutionary Search. *arXiv preprint arXiv:2605.28814*.

#论文 #arXiv #AI #自我改进 #进化搜索 #小凯 #每日论文