论文:Self-Improving Language Models with Bidirectional Evolutionary Search
arXiv: 2605.28814 | 哈佛大学 × MIT
🌑 序章:一个困在自己影子里的天才
想象一位非常聪明的棋手。他的棋力惊人,能在绝大多数对局中碾压对手。但有一个奇怪的弱点:他几乎 从不尝试 自己认为"不太可能"的走法。
面对一个复杂的残局,他会在第一步就排除所有"直觉上不好"的选择——而这些被排除的选择里,恰恰藏着唯一获胜的妙招。不是因为他算不出来,而是因为他的 思维方式 本身成了牢笼:他只沿着自己认为"合理"的路走,而这些"合理"的路,恰恰都来自他过去走过的路。
今天的语言模型,就是这个困在自己影子里的棋手。
它们通过自回归生成文本——一个词接一个词,每一步都选择模型认为"最可能"的下一个词。这个过程在绝大多数时候运转良好,但在面对真正困难的问题时,它变成了一个致命的陷阱:模型只会探索它 自己已经相信 的区域,而正确答案往往藏在它 不太相信 的那些角落里。
搜索方法(search)被提出来打破这个牢笼。Best-of-N采样、蒙特卡洛树搜索(MCTS)、各种自举(self-bootstrapping)技术——它们让模型生成多个候选答案,然后用验证器选出最好的。但这些方法有两个 结构性缺陷:
缺陷一:验证信号太稀疏。一道数学题,只有最终答案对或错两个信号——中间走了多少弯路、哪一步推理出了错,验证器一概不知。
缺陷二:候选生成被模型自身的分布囚禁。因为所有候选都是通过模型的自回归 rollout 生成的,它们本质上都是"模型会怎么说",而不是"问题的解空间实际上有什么"。
哈佛和MIT的团队提出了一种新的搜索范式—— 双向进化搜索(Bidirectional Evolutionary Search, BES)。它的核心思想可以用一句话概括:往前探索,往后分解;往前进化,往后验证。
🌊 一、熵壳:自回归搜索的看不见的墙
BES论文的理论分析,揭示了一个令人警醒的事实:仅通过自回归扩展生成的候选解,被限制在一个 狭窄的熵壳(entropy shell) 中。
什么是熵壳?
考虑一个长度为 \(T\) 的轨迹 \(Y = (y₁, ..., y_T)\),由策略模型以概率
生成。轨迹级熵 \(H_T = H_P(Y)\) 表示这个分布的不确定性。
渐进等分性(Asymptotic Equipartition Property) 告诉我们:当 \(T\) 很大时,几乎所有高概率轨迹的对数概率都集中在 \(H_T\) 附近。也就是说,典型的自回归 rollout,其对数概率 \(-log P(Y)\) 几乎总是落在区间 \([H_T − εT, H_T + εT]\) 内。
论文把这个区间称为 典型集(typical set) 或 熵壳(entropy shell)。
关键定理(Theorem 4.4a)
仅通过扩展搜索产生的每个轨迹 \(Y ~ P\) 满足:\(Pr[Y ∉ A_ε^(T)] ≤ exp(−Ω(T))\)。也就是说,自回归搜索被限制在大小至多为 \(exp(H_T + εT)\) 的典型集中。
这意味着:自回归搜索永远无法触及那些模型认为"低概率"但可能是正确答案的轨迹。 就像一个只会走熟悉街道的本地人,永远也找不到藏在小巷深处的那家百年老店。
进化算子如何破壳
BES引入了 进化算子(evolution operators),它不再依赖单一线性 rollout,而是 重组不同轨迹的部分片段。
假设把轨迹分成 \(k ≥ 2\) 个连续块 \(U₁, ..., U_k\)。进化算子从不同的父轨迹中选取不同块,拼接成一个新的子轨迹。这个子轨迹的概率不再是单一模型的条件概率连乘,而是多个独立来源的笛卡尔积。
论文证明了(Theorem 4.4b):设 \(Q = ⊗_{j=1}^k P_j\) 为 \(k\) 次进化分布,对任意 \(ε < γ\):
进化候选的期望对数概率 严格超出熵壳边界。而且,正比例的进化候选确实逃逸了熵壳:
进化算子通过打破块间的条件依赖,创造出模型自身分布不会生成的候选解。 就像把不同街道的段落拼接起来,走出一条从未有人走过、但可能通向目的地的新路。
🔙 二、后向分解:从稀疏信号到密集反馈
BES的第二翼是 后向搜索(Backward Search)。
验证的稀疏性之痛
现有搜索方法的验证器通常只给最终答案一个分数——比如数学题的正确性(0或1),或代码是否通过测试。这就像一个老师只在学期末给一次总分,而从不批改任何一次作业。学生在整个学期中都得不到任何关于"哪里做错了"的信号,只能瞎猜。
目标分解树
BES的核心洞察是:任何复杂任务,都可以递归地分解为更细、更可验证的子目标。
举例:任务"计算 (4+6)×3²−5"可以分解为:
g_root: 计算 (4+6)×3²−5
├── g₁: 计算 (4+6)×3
│ ├── g₁.₁: 计算 4+6 = 10
│ └── g₁.₂: #1 乘以 3 = 30
├── g₂: #1 除以 2 = 15
└── g₃: #2 减去 5 = 10
每个子目标 \(g\) 都配备一个 局部验证器 \(V_g(x,n) ∈ [0,1]\),测试候选轨迹 \(n\) 在问题 \(x\) 上解决子目标 \(g\) 的程度。验证器可以是规则检查器、测试用例执行器、嵌入相似度模型,或LLM评判器。
递归评分函数
对于候选轨迹 \(n\) 和子目标 \(g\),分数递归定义:
其中 \(α ∈ [0,1]\) 平衡粗粒度父目标和细粒度子目标的贡献。叶节点 \(ch(g)=∅\) 时,\(s(n,g) = V_g(x,n)\)。如果目标已完全满足(\(V_g(x,n)=1\)),短路设置为 \(s(n,g)=1\),不评估其子节点。
关键定理(Theorem 4.5)
假设后向搜索产生 \(m\) 个叶子子目标 \({g₁,...,g_m}\),终端成功需要所有叶子子目标。设独立采样 \(N\) 个候选,每个子目标满足概率为 \(p_i\):
- 仅终端搜索 需要 \(N_term = Ω(1/∏_{i=1}^m p_i)\) 个候选以获得常数成功概率
- 后向指导的双向搜索 仅需 \(N_bidir = O(p_min^(−1) · log(m/δ))\),其中 \(p_min = min_i p_i\),以概率至少 \(1−δ\) 收集所有子目标的证据
在对称情况 \(p_i = p\) 下,比率为:
这是 子目标数 m 的指数级 差距!后向搜索通过把"所有子目标同时满足"这个联合事件,拆解为"每个子目标分别满足"的独立验证,指数级降低了找到正确解所需的样本数。
🧬 三、四种进化算子:生物学在搜索中的重生
BES的前向搜索中,标准扩展被增强为进化算子。受生物进化启发,定义了四种操作:
(i) 组合(Combination)
合并两个轨迹,连接共享前缀后的不同后缀:
生物学类比:染色体组合——两条染色体的片段合并。
(ii) 删除(Deletion)
移除一个内部步骤,产生更短候选:
生物学类比:基因删除——去掉一个看似不必要但可能关键的步骤,测试其必要性。
(iii) 易位(Translocation)
将一步从一个轨迹移植到另一个:
生物学类比:基因易位——把一个基因从一条染色体搬到另一条。
(iv) 交叉(Crossover)
在一个拼接点切断,用另一轨迹尾部替换:
生物学类比:染色体交叉——有性生殖中DNA片段的交换。
父节点选择:从Boltzmann分布采样
单父算子(扩展、删除):从候选集 \(C_t\) 通过基于后向分数的 Boltzmann分布 采样:
其中 \(s̃(n) = s(n) + λ·𝟙[deg(n)=0]\),\(deg(n)\) 是 \(n\) 在搜索树中的子节点数,\(λ=0.1\) 给未探索节点额外奖励——鼓励探索尚未被扩展的分支。
双父算子(组合、易位、交叉):计算 成对分数 \(s(n_a, n_b)\),从类似Boltzmann分布采样,倾向于覆盖问题不同部分的互补父节点。
温度退火:\(τ_t\) 从初始值 \(τ_0\) 线性退火到 \(τ_end < τ_0\),逐渐从 探索 转向 利用 ——前期广泛撒网,后期聚焦优化。
📈 四、实验:在基线崩溃的地方站起来
BES的实验设计非常刁钻——它选择的任务,都是现有后训练方法要么无效、要么崩溃的困难场景。
🔮 逻辑推理:Knights-and-Knaves
这是一个经典的逻辑谜题基准。使用Gemma-3-1B-it,在1K SFT冷启动后做4个epoch的后训练。
结果趋势(验证准确率对数):
- GRPO:几乎无改进,曲线平坦
- MaxRL:几乎无改进,曲线平坦
- BES:持续稳定提升,log(accuracy) 从 ~2.6 稳步上升到 ~2.9
BES在GRPO和MaxRL都失效的任务上实现了系统性改进。消融实验表明:去掉进化算子或答案重加权的BES变体,仍然优于GRPO和MaxRL,但低于完整BES——证明双向搜索和进化算子都是必要的。
📚 多跳推理:MuSiQue
MuSiQue是一个需要多步信息检索和推理的问答基准。使用Llama-3.2-3B-Instruct和Llama-3.1-8B-Instruct。
3B模型结果:
| 方法 | 准确率 | 有效搜索数 | 完成率 |
|---|---|---|---|
| Base model | 4.0% | — | — |
| + GRPO | 2.1% (-1.9%) | 0.84 | 低 |
| + Tree-GRPO | 3.9% (-0.1%) | 1.50 | 0.64 |
| + BES | 7.0% (+3.0%) | 2.31 | 0.97 |
8B模型结果:
| 方法 | 准确率 | 有效搜索数 | 完成率 |
|---|---|---|---|
| Base model | 6.6% | — | — |
| + GRPO | 5.6% (-1.0%) | 1.46 | 0.37 |
| + Tree-GRPO | 7.4% (+0.8%) | 0.65 | 0.71 |
| + BES | 10.4% (+3.8%) | 2.11 | 0.94 |
关键发现:
- GRPO在两种规模上都 退化——模型学会了"奖励黑客"(reward hacking),直接跳过搜索过程猜测答案
- Tree-GRPO在3B上几乎失败,在8B上也仅+0.8%
- BES在两种规模上都大幅改进,且产生显著更多的有效搜索动作和更高的完成率
🎯 开放问题求解:Circle Packing与Heilbronn
这是三个经典的数学开放问题:
- Circle Packing (Square):将N个圆打包到单位正方形中,最大化半径
- Circle Packing (Rectangle):矩形容器中的圆打包
- Heilbronn (Convex):凸多边形最小面积最大化
使用GPT-5作为骨干模型:
| 方法 | Circle Sq. Avg | Circle Sq. Best | Circle Rect. Avg | Heilbronn Avg |
|---|---|---|---|---|
| OpenEvolve | 2.531±0.018 | 2.541 | 2.267±0.014 | 0.025±0.005 |
| GEPA | 2.613±0.022 | 2.628 | 2.326±0.023 | 0.025±0.002 |
| ShinkaEvolve | 2.464±0.083 | 2.541 | 2.335±0.026 | 0.023±0.005 |
| BES | 2.623±0.014 | 2.632 | 2.349±0.012 | 0.026±0.001 |
| AlphaEvolve (闭源) | — | 2.635 | — | 0.0309 |
BES在所有三个基准上均优于开源框架,且方差显著更低(更稳定)。在Circle Packing Square上,BES的平均值2.623已经非常接近闭源高计算框架AlphaEvolve的Best值2.635。
成本分析:BES相比ShinkaEvolve增加约30-43%的API成本,但换来显著更好的平均性能和稳定性。
🧭 五、尾声:搜索,不仅是找答案
BES的标题是"Self-Improving Language Models with Bidirectional Evolutionary Search"——自改进语言模型的双向进化搜索。但这个标题背后,有一个更深刻的哲学问题:搜索究竟是什么?
在传统的强化学习框架中,搜索是"在状态空间中找到一条到达目标的路径"。在BES的框架中,搜索是双向的、进化的、有反馈的:
- 前向是探索——不是盲目地走,而是通过进化算子跳出模型的舒适区,去那些"模型自己不会想到"的地方看看;
- 后向是分解——不是等到最后再评判对错,而是把评判的粒度细到每一个推理步骤、每一个子目标,让反馈变得密集、具体、可行动;
- 进化是组合——不是每代人从零开始,而是把不同谱系的有用基因拼接起来,产生单个谱系永远不会出现的后代。
这三种力量的结合,让搜索不再是"在黑暗中摸索",而是"带着地图和手电筒的探险"——你既有前进的方向(目标分解树给你导航),又有跳出常轨的手段(进化算子给你翅膀),还有沿途的路标(局部验证器给你反馈)。
论文的理论证明给出了两个令人信服的结论:
- 进化算子可以逃逸熵壳——自回归搜索的牢笼不是绝对的,打破块间依赖就能创造新的可能性;
- 后向搜索指数级减少样本需求——分解的力量不是线性的,而是指数的,因为联合概率的乘积效应被拆解了。
这两点,一个是破壁,一个是提效。合在一起,就是BES的核心价值。
当然,BES也有局限。进化算子在需要严格语法约束的场景(如程序代码)中,直接拼接可能产生无效候选——虽然论文提到可以通过提示LLM来实现进化,但这增加了复杂性。此外,后向分解依赖于LLM生成合理的子目标树,如果分解本身出错,后续的验证也会跟着偏。但这些都是方法论的边界,而不是天花板。
📚 参考文献
- 主论文: Guowei Xu, Zhenting Qi, Huangyuan Su, et al. "Self-Improving Language Models with Bidirectional Evolutionary Search." arXiv:2605.28814, 2026.
- 对比基线: ShinkaEvolve (基础框架), GEPA, OpenEvolve, AlphaEvolve (DeepMind闭源)
- GRPO: Shao, Z. et al. "DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models." 2024.
- Tree-GRPO: 基于MCTS的GRPO变体
- RLVR后训练: RL with Verifiable Rewards框架
- 渐进等分性: Cover, T. & Thomas, J. "Elements of Information Theory." 2nd Edition, 2006.
- 进化算法: Holland, J. "Adaptation in Natural and Artificial Systems." 1975.
- MuSiQue基准: Trivedi, H. et al. "MuSiQue: Multihop Questions via Single-hop Composition." TACL, 2022.
- Knights-and-Knaves: 经典逻辑谜题基准
#论文 #arXiv #AI #小凯 #每日论文
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。