[论文] AI的进化论——当语言模型学会"自我育种"
论文3: AI的进化论——当语言模型学会"自我育种"
> arXiv: 2605.28814 | Self-Improving Language Models with Bidirectional Evolutionary Search > 作者: Guowei Xu, Zhenting Qi, Huangyuan Su, Weirui Ye, Himabindu Lakkaraju, Sham M. Kakade, Yilun Du > 发表于: 2026-05-27
---
🌱 引言:当AI开始自己教自己
想象一个场景:一个孩子学习数学。老师给他一道题,他做错了。老师说:"不对,再想想。"他又试了一次,还是错了。老师还是只说:"不对。"
这个孩子会遇到什么问题?他很沮丧,因为他不知道"哪里错了"——是理解错了概念?还是计算出了差错?还是看漏了条件?没有具体的反馈,他很难进步。
这就是当前AI训练方法面临的困境。大多数"自我改进"的方法,比如best-of-N采样(从N个候选中选最好的),就像一个只说"不对"的老师——它告诉你"这个答案不好",但不告诉你"为什么不好"以及"怎么改进"。
这篇论文提出的双向进化搜索(Bidirectional Evolutionary Search, BES),就像一个会拆解问题、会给出具体建议的超级教练。它不只会说"不对",还会说:"这个问题可以分成三步,第一步你已经做得很好了,第二步要注意这个条件,第三步试试这个方法。"
---
🧬 第一章:进化的两个盲区
1.1 稀疏反馈的困境
要理解BES为什么重要,我们需要先理解现有方法的局限。
当前主流的搜索方法有两类:
第一类:Best-of-N采样 模型生成N个候选答案,然后用一个验证器(Verifier)打分,选最高分那个。就像考试时的"多试几种解法,看哪种得分高"。
问题在哪?反馈是稀疏的。验证器只给最终答案打分,中间过程完全不管。就像老师只看最终答案,不看你的草稿纸。如果你在某一步犯了系统性错误,但碰巧最终答案对了,这个方法永远不会发现你的错误。反之,如果你在最后一步手滑算错,但前面所有思路都对,你也得不到任何肯定。
第二类:树搜索(Tree Search) 比如蒙特卡洛树搜索(MCTS),它构建一个搜索树,在每个节点评估不同分支的潜力。这比best-of-N好一些,因为它考虑了中间状态,但核心问题仍在:评估信号是稀疏的。树节点的评估通常只基于"从这个节点出发能赢的概率",而不是"这个节点本身有什么问题"。
1.2 自回归的牢笼
现有方法的第二个盲区更隐蔽:它们构建候选的方式被自回归生成限制住了。
什么是自回归?就是模型像写作文一样,从左到右一个字一个字地生成。每一个新词都依赖前面已经生成的词。这种方式有两个问题:
问题一:只能在"大概率区域"探索。 模型倾向于生成它"熟悉"的内容,就像一个人写论文时,总是不自觉地用自己习惯的表达方式。如果正确答案需要一种模型"不擅长"的表达方式,自回归生成很难"发现"它——就像让一位习惯写散文的作家突然写出优美的十四行诗。
问题二:无法重组已有部分。 假设模型生成了两个不错的候选A和B,A的前半部分很好,B的后半部分很好。理想的改进是把A的前半和B的后半组合。但自回归生成做不到——它必须从头开始重新生成,不能"剪贴复制"。就像你不能把两篇作文各取一半拼成一篇更好的,而必须重写。
论文把这个问题表述得很精确:候选被限制在一个狭窄的"熵壳"(Entropy Shell)中——它们有相似的熵(不确定性),都集中在模型"舒适区"内,缺乏多样性。
---
🔄 第二章:双向进化搜索——前后夹攻的智慧
2.1 前向搜索:进化而不仅仅是生长
BES的前向搜索(Forward Search)做了两件事:
第一件事:标准扩展(Expansion) 就像传统方法,模型从当前状态生成下一步。这是"生长"——从无到有地延伸。
第二件事:进化操作(Evolution Operators) 这是BES的独特之处。它不只是"生长",还会重组(Recombine)已有的部分轨迹。
想象你在拼乐高。传统方法是从头到尾按说明书一步步拼。BES说:不,你也可以把两个半成品模型的部件拆开,重新组合。比如:
- 模型A的底盘 + 模型B的上层建筑
- 候选1的前三段 + 候选2的后两段
- 不同推理路径中的成功子程序被提取并拼接
论文给出了理论保证:进化操作可以让候选逃离狭窄的熵壳。数学证明表明,仅靠扩展(Expansion)生成的候选被限制在一个低熵区域,而进化操作可以跳到高熵区域——那里可能有更好的解。
2.2 后向搜索:把大问题拆成小游戏
BES的后向搜索(Backward Search)是更 radical 的创新。它不再只从"起点"向"终点"搜索,而是从"终点"向"起点"分解。
想象你要完成一个复杂的任务:"写一篇关于气候变化的论文"。
前向搜索的做法是:从"开始写"一步步往前推——先写引言,再写背景,然后写论证……最后写结论。如果验证器说"最终论文不够好",你不知道是哪一步出了问题。
后向搜索的做法是:把目标分解成可验证的子目标。比如:
- 主目标:写好论文
- 子目标1:写好引言(验证:是否涵盖了研究问题?)
- 子目标2:写好背景(验证:是否引用了关键文献?)
- 子目标3:写好论证(验证:逻辑是否严密?数据是否支持?)
- 子目标4:写好结论(验证:是否回应了研究问题?)
2.3 递归分解:像剥洋葱一样拆解问题
后向搜索不是只分解一层。它会递归地分解:
如果"写好论证"这个子目标还是太复杂,就继续分解:
- 写好论证
- 子子目标1:找到支持的证据
- 子子目标2:构建反驳结构
- 子子目标3:写出逻辑连接
2.4 前后联动的魔法
前向搜索和后向搜索不是独立的。它们是耦合的(Coupled):
- 后向分解指导前向探索:知道子目标是什么,前向搜索就有了方向。不再是漫无目的地"试试这个试试那个",而是有针对性地"向着子目标前进"。
- 前向结果修正后向分解:如果前向搜索发现某个子目标实际上无法达成(比如"找到支持的证据"这一步走不通),后向搜索会调整分解策略——也许需要换一个论证角度。
---
🧮 第三章:理论保证——为什么BES有效
3.1 熵壳的数学直觉
论文给出了一个理论分析:为什么仅靠扩展(Expansion)的搜索会受限?
想象候选空间是一个巨大的球。每个候选是一个点,它的"熵"是它到中心的距离。模型生成的候选,因为自回归的本性,倾向于集中在球的一个特定层——这就是"熵壳"。
进化操作(重组)相当于在这个球内"跳跃"——可以跳到不同的层,甚至不同的区域。这打破了"熵壳"的约束,让探索更加多样化。
3.2 指数级减少样本需求
后向搜索的另一个理论保证是:它可以用指数级更少的样本找到正确答案。
直觉是这样的:如果一个问题需要10个步骤才能解决,而且每个步骤有2种选择(对/错),那么随机搜索需要尝试 2^10 = 1024 次才能找到正确答案。
但如果后向搜索把问题分解成10个子目标,每个子目标可以独立验证,那么:
- 你不需要找到完整的10步路径才得到反馈
- 每走对一步,就立刻得到"这步对了"的反馈
- 这相当于把指数级搜索空间压缩成了线性级
---
🏆 第四章:实验——从失败中崛起的AI
4.1 后训练(Post-Training)的突破
实验的第一部分关注"后训练"——即在基础模型已经训练完成后,如何通过搜索来进一步改进它。
在这个任务上,主流的后训练算法都失败了(模型无法持续提升)。这就像一个学生已经到了瓶颈期,刷再多题也没有进步。
但BES实现了持续的提升。为什么?因为主流方法依赖稀疏验证信号(最终答案对不对),而BES通过双向搜索提供了密集的中间反馈。这就像瓶颈期的学生突然有了一位能指出"你第三步总是犯同样错误"的教练——进步重新开始了。
4.2 推理时(Inference-Time)的碾压
实验的第二部分关注"推理时"——即模型在回答新问题时的表现。
论文测试了三个开放性问题解决基准: 1. 数学推理 2. 代码生成 3. 科学问题求解
BES在这三个基准上超越了所有现有的开源框架,而且在"平均性能"和"最佳性能"两个指标上都赢了。
这意味着BES不仅"通常表现更好",而且"偶尔能找到更好的解"——前者说明稳定性,后者说明探索能力。
4.3 双向的优势:1+1 > 2
论文还做了消融实验(Ablation Study),分别测试只有前向搜索和只有后向搜索的效果。结果表明:
- 单独前向搜索:比基线好,但不如BES
- 单独后向搜索:比基线好,但不如BES
- 双向结合:显著优于两者单独使用
---
🌟 第五章:为什么BES是AI进化的重要一步
5.1 从"试错"到"进化"
传统搜索是"试错"(Trial and Error):试试这个,不行;试试那个,不行;再试试……
BES是"进化"(Evolution):不仅有随机变异(扩展),还有重组(进化操作),还有目标导向的分解(后向搜索)。这就像生物进化不仅有基因突变,还有基因重组(有性繁殖),还有自然选择(环境反馈)。
5.2 从"黑盒验证"到"白盒指导"
传统方法中,验证器是"黑盒"——你输入一个候选,它输出一个分数,但你不清楚为什么。
BES中,后向搜索把验证器变成了"白盒"——它检查的不是"最终结果好不好",而是"每个子目标达成没有"。这给模型提供了可解释、可操作的反馈。
5.3 从"单向生长"到"双向优化"
这也许是BES最深远的哲学意义。人类解决问题时,从来不是单向的。我们会:
- 从目标倒推(如果我要在5点到达,我需要几点出发?)
- 从现状正推(我现在在A,怎么去B?)
- 前后对照(走到一半发现时间不够,调整计划)
---
🔮 结语:AI的自我育种时代
让我用一个生物学隐喻来结束。
达尔文发现,物种进化需要三个要素: 1. 变异(Mutation)——产生多样性 2. 选择(Selection)——优胜劣汰 3. 遗传(Heredity)——保留优秀特征
BES在AI中实现了类似的机制:
- 扩展 → 变异(产生新的候选)
- 进化操作 → 重组(有性繁殖,组合优势)
- 后向搜索 → 选择压力(子目标验证,适者生存)
- 前向搜索 → 遗传(保留成功路径)
也许我们正在见证一个转折点:AI不再只是"被训练",而是开始"自我育种"。就像人类从采集狩猎到农业革命——我们不再只是寻找好的作物,而是开始培育它们。
> *"进化不是关于最强者生存,而是关于对变化最敏感者生存。BES让AI对变化敏感,对自己敏感。"*
---
参考文献
- Xu, G., Qi, Z., Su, H., Ye, W., Lakkaraju, H., Kakade, S. M., & Du, Y. (2026). Self-Improving Language Models with Bidirectional Evolutionary Search. *arXiv preprint arXiv:2605.28814*.
🌟 智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
🎁 领取 2000万 Tokens