想象一下,你面前站着一位才华横溢却有点急躁的写作者:给他一个复杂任务——规划一趟满足几十条约束的旅行、安排一整天的会面、或者把一段数字暗号藏进一首像 Shel Silverstein 那样顽皮的诗——他往往会“灵光一现”给出一版答案,然后就卡住了。
问题并不在于他不聪明,而在于他太像人类的第一反应:先写个差不多的,再说。可在这些任务里,“差不多”通常等价于“错”。
Kuang-Huei Lee 等人(Google DeepMind)在 2025 年的论文《Evolving Deeper LLM Thinking》(arXiv:2501.09891v1)里,给这种急躁的天才配了一套很“生物学”的外挂:让答案像物种一样进化。他们把它叫做 Mind Evolution。
🧠 从“想一想”到“想得更深”:推理时算力到底该怎么花?
大语言模型(LLM)过去几年最让人着迷的,不是它会背知识——而是它偶尔会“像在思考”。于是一个自然的问题出现了:
我们能不能在不训练、不微调的前提下,只靠推理阶段(inference time)的额外计算,让模型更会解题?
此前的路线大致分几派:
- Chain-of-Thought(思维链):让模型写出推理过程(论文提到 [41,21])。
- Self-consistency(自洽):采样多条推理链,投票选答案([39])。
- Sequential revision / Reflexion(逐步修订):模型自己(或在反馈下)反复改稿([36,30,8,19,1])。
- Best-of-N:一次生成 N 个完整答案,挑最好的([4,24,25])。
- Tree search / verifier-guided search:树搜索或用验证器引导的搜索([37,43])。
这些方法共同的主题是:
把更多推理时计算,换成更高成功率。但现实是,很多任务最难的地方并不是“多想几步”,而是:
- 约束分散在自然语言里,难以形式化;
- 你可能不知道每一步该怎么评分;
- 但你往往能写出一个程序:告诉你最终答案到底合不合格。
Mind Evolution 就抓住了这点:
“会评估”比“会生成”更容易——这在经典计算理论里也很有名(论文引用 [11],强调验证通常比求解容易,许多 NP 问题便是如此)。
🌱 Mind Evolution:让答案像物种一样繁衍、杂交与突变
论文的核心贡献可以用一句话概括:
Mind Evolution 是一种面向自然语言解空间的遗传搜索策略:只要你有一个“解的评估器”,就能在不形式化问题的情况下,用 LLM 生成、重组与迭代改进候选解。
它像把两种认知模式拼接在一起:
- 发散思维:并行探索很多不同想法;
- 收敛思维:评估、筛选、修正并逐步逼近可行解。
论文在 Figure 1 用旅行规划举例:模型先吐出 Plan A/Plan B,评估器指出“超预算”“餐饮偏好没满足”等,然后系统做“选择—交叉—突变”的改造,进入下一代(Gen 2、Gen 3…),直到找到有效解或达到最大代数。
与 Best-of-N 的关键差别在于:
- Best-of-N 只宽不深:候选彼此独立,评估完就结束;
- Mind Evolution 又宽又深:不仅保留多样性,还会对好苗子进行反复打磨。
与常见“逐步推理/树搜索”的差别在于:
- 很多树搜索需要给“每一步推理”打分(过程奖励、stepwise evaluation);
- Mind Evolution 做的是整体解的全局修订,因此只需要一个全局解评估器,不需要过程级奖励。
🧬 语言版遗传算法:自然语言也能当“基因”?
论文先回顾遗传算法(Genetic Algorithm):
- 有一群候选解(population);
- 每个候选解都有“基因表示”(这里就是自然语言方案);
- 每代:评估适应度(fitness)→ 按适应度概率选择父母(selection)→ 交叉重组(crossover)→ 突变(mutation)→ 产生下一代。
关键点在于:在传统优化中,交叉/突变是对向量或字符串做操作;而 Mind Evolution 把这些操作交给 LLM 来做,通过 prompt 让它完成“重组与改写”。
小贴士:
在这里,“基因”不是固定长度编码,而是一段可读的自然语言方案。LLM 既是“基因编辑器”,又是“繁殖机制”,评估器则相当于自然选择的环境压力。
🗣️ RCC:让模型分裂成“挑刺者”和“作者”,把改稿变成制度
Mind Evolution 的一个重要设计,是论文称为 Refinement through Critical Conversation(RCC) 的机制(Figure 2)。
每一轮改进不是简单让模型“再想想”,而是把模型扮演成两个角色:
- Critic(批评者):阅读候选解 + 评估器反馈,分析哪里错、为什么错、怎么改;
- Author(作者):根据 Critic 的建议,产出新的完整解。
作者们认为:把“挑错”和“写作”分离,可以提升 LLM 的批判性思维质量。这一点在他们的消融实验里也得到了支持(后文会说)。
🏝️ 岛屿模型:防止“全村都学坏了”的群体多样性机制
进化搜索最怕一种灾难:早熟收敛。大家都被某个看似不错的模式诱导,最终全体陷入局部最优。
论文引入经典的 Island Model(岛屿模型):
- 把种群分成多个“岛屿”(子群体)独立进化;
- 允许“迁徙”(migration):把一个岛的优秀解复制到下一个岛;
- 允许“岛屿重置”(island reset):把表现差的岛整体替换成全局优秀解,以恢复质量与多样性。
这也是 FunSearch 等成功进化系统常用的手段(论文提到 [34])。
⚙️ 关键超参数:800 个候选解不是巧合
论文 Table 1 列出默认超参数:
- 最大代数:$N_{gens}=10$
- 岛屿数:$N_{island}=4$
- 每岛对话数:$N_{convs}=5$
- 每对话轮数:$N_{seq}=4$
这四个数相乘:
$10 \times 4 \times 5 \times 4 = 800$,对应“最多生成 800 个候选解”的预算,用于与 Best-of-N 的公平对比(同样最多 800)。
其他参数还包括:
- 重置间隔 $N_{reset\ interval}=3$、每次重置 $N_{reset}=2$ 个岛;
- 迁徙数 $N_{emigrate}=5$;
- 每次重组最多父母数 $N_{parent}=5$;
- 对话无父母概率 $P_{rno\ parents}=1/6$(用于保留随机探索);
- 每 turn 重试 $N_{retries}=5$。
这些参数背后体现一个朴素哲学:
既要允许“偶尔离经叛道”,也要不断把资源押在更好的个体上。
🧪 三大任务:旅行规划、行程规划、会议规划——以及一个“诗歌隐写”新挑战
作者们选择的测试场景很有代表性:它们共同特征是——问题用自然语言描述,很难形式化,但可以写评估器检查解是否满足约束。
1) 🧳 TravelPlanner:旅游计划(预算、酒店、餐饮、交通……)
论文指出:在这个基准上,LLM 单次生成非常差:
- Gemini 1.5 Flash:5.6%(val,1-pass)
- o1-preview(参考):11.7%(val,1-pass)
即便 Best-of-N 采样到 800 次,Gemini 1.5 Flash 也只有
55.6%。
而 Mind Evolution 在“控制推理成本”的前提下达到:
并且平均成本(Table 2)反而更低于 Best-of-N:
- Best-of-N val:472 次 LLM 调用,成本 $0.47
- Mind Evolution val:174 次调用,成本 $0.29
这很像现实写作:盲目写 472 篇不同作文,不如写 174 次“有反馈的修改”。
更狠的是两阶段策略:
- 先用 Flash 跑 Mind Evolution,没解出来的再用 Pro;
- TravelPlanner 达到 100%(val)/ 99.9%(test)。
论文强调:此前能接近这种成绩的工作 [16] 需要“先形式化 + 用正式求解器”,而 Mind Evolution
不需要 formal solver。
2) 🗺️ Natural Plan – Trip Planning:多个城市、航班连通、指定天数与事件
在 Trip Planning:
- Mind Evolution:96.2%(val)/ 94.1%(test)
- Best-of-N:77.2%(val)
- Sequential-Revision+:74.4%(val)
两阶段(+Pro)后:
论文还展示了一个非常“有戏剧性”的例子(Table 3):
1-pass 和 Best-of-N 都在“天数”上犯错;Sequential revision 虽天数对了,却漏掉了 Madrid 的 show 事件,还安排了不存在的航班;Mind Evolution 则同时满足所有条件。
这揭示一个现实:不同策略会在不同类型错误上“有偏差”。进化式策略的优势在于,它能通过多样性 + 反馈纠偏,让系统更可能同时击中所有约束。
3) 📅 Natural Plan – Meeting Planning:目标是“尽可能多见朋友”,还要考虑旅行时间
Meeting Planning 更像优化问题:不一定存在“满足所有人”的完美解,需要在约束下最大化会面人数。
结果(Table 2):
- Mind Evolution:85.0%(val)/ 83.8%(test)
- Best-of-N:69.4%
- Sequential-Revision+:62.0%
两阶段(+Pro):
论文还给了一个例子(Table 10):Mind Evolution 找到“见 Sandra + Mark + Kevin + Amanda”的计划,没见到 Michelle,但被判定为最佳可能方案(因为时间窗与地点移动限制使得 Michelle 很难兼顾)。这也体现了评估器在优化任务中的作用:它不仅“判对错”,还能体现目标函数。
4) 🕵️♂️ StegPoet:把数字信息藏进诗里(新基准)
这是论文引入的新任务,目的是证明 Mind Evolution 的适用范围不只限于“容易形式化的规划”,还能处理难以形式化但可验证的问题。
StegPoet 要求:
- 给一串数字消息 $M$,先建立数字→单词的一一映射(cipher);
- 写一篇指定风格(诗/故事/随笔)的文本,把 cipher 单词按顺序嵌进去,从而编码消息;
- 还要求平均每两个密码词之间至少隔 $B$ 个普通词($3 \le B \le 7$),避免“直接把密码词列表贴出来”。
结果(Table 6)非常夸张:
- 1-pass:0%
- Best-of-N:1%
- Sequential-Revision+:19.8%
- Mind Evolution(Flash):46.5%
- 两阶段(+Pro):87.1%(val)/ 79.2%(test)
如果说前三个规划任务是“工程性约束地狱”,StegPoet 则是“审美与规则的双重枷锁”:既要像诗,又要精确编码,还要避免密码词在别处误触发。这类任务最符合论文的动机:
生成很难,但验证相对可程序化。
📈 进化真的在“越想越深”吗?——关于规模与曲线
论文给出一个关键图(Figure 6):随着代数从 1 增加到 10,三个规划任务的成功率稳步上升。这说明 Mind Evolution 的性能确实随着推理时计算增加而增长。
另外 Figures 7–9 以“候选解数量”为横轴,比较 Mind Evolution、Best-of-N、Sequential-Revision+:
- 所有方法都会随候选数增加而更好(这很正常);
- Mind Evolution 始终在同等候选数下更有效:达到同样成功率需要更少候选。
论文还提出一个有趣观察:Best-of-N 在 TravelPlanner 上表现特别差,他们推测原因是 TravelPlanner 有很多
隐含常识约束(例如回到起点、餐厅不能重复等),这些约束并不会在题面显式列出,而是需要从评估反馈中学习;Best-of-N 不利用反馈,自然就“撞不到门”。
🧩 消融实验:到底是哪块“脑叶”最管用?
论文在 TravelPlanner 验证集做了消融(Table 4),结论非常明确:
- Critic 步骤很关键:去掉 critic,性能显著下降;
- 评估器的文本反馈很关键:不给反馈也会大幅掉点;
- 任务特定的 Strategy/Question prompts 有帮助;
- 用 LLM 做 island reset 的“多样性挑选”比纯按分数挑精英更好。
论文甚至把最关键的两样点得很直白:
critic + textual feedback 是最重要的。
小贴士:
这其实在解释一个常见现象:很多模型“知道怎么做对”,但需要有人把错误指给它看。评估器的反馈是“现实世界的摩擦力”,Critic 则是“把摩擦力翻译成改稿计划”的中枢神经。
🔬 评估函数:他们到底怎么“判卷子”?
Mind Evolution 的关键前提是:有一个程序化 evaluator。
论文 A.2 详细讲了三类任务的评分逻辑:总体原则是“满分为 0”,违反约束就扣分(负分越多越差),并附带文本反馈。
- TravelPlanner:基于官方评估代码修改,使其输出累积分数 + 违反约束的文本反馈。测试集约束只在文本里,作者用 Gemini 1.5 Flash 抽取成 JSON,并在验证集上验证抽取结果与官方 JSON 完全一致。
- Trip Planning:因为问题是程序生成的,约束可从文本解析;评估包括城市天数、指定日期事件、航班连通、JSON 格式等。
- Meeting Planning:既有约束(时间地点可达、不能重复见同一人等),也有目标(尽可能多见朋友);论文给出示例代码(Figure 23–24)展示如何逐步模拟时间线并给出反馈。
💸 成本:更聪明,还是更烧钱?
“推理时搜索”最容易被质疑的一点是:你是不是用钱堆出来的?
论文的回答很务实:他们不仅报告成功率,还报告 LLM 调用次数、token 数和 API 成本(Table 2),并强调必须控制推理成本来比较策略。
在 TravelPlanner 上,Mind Evolution 甚至比 Best-of-N 更便宜;Sequential-Revision+ 则非常贵,因为 80-turn 对话会吞掉大量输入 token(论文 Figure 25 也展示了成本-成功率曲线,Sequential-Revision+ 曲线往往被截断,因为太费)。
此外还有一个策略很工程:两阶段。先用便宜模型探索,大多数实例搞定;少数困难样本再上贵模型 Pro,整体更具性价比。
🧭 结论与局限:进化不是万能钥匙,但它把“可验证的难题”打开了一条路
论文的结论(Section 6)很清晰:
- Mind Evolution 通过推理时进化搜索,在 TravelPlanner 与 Natural Plan 上显著超过 Best-of-N 与 sequential revision;
- 在不依赖正式求解器的情况下,达到非常高成功率;
- StegPoet 证明它能处理更难形式化的任务,只要能验证。
局限同样直接(Limitations):
- 目前聚焦于“能程序化评估与批评”的任务;
- 未来希望用 LLM-based evaluators 扩展到更广泛领域,但论文也提醒:学习型评估器可能噪声大、不可靠(Related Work 部分也提到这一点)。
小贴士:
换句话说,Mind Evolution 的魔法不是“让模型凭空更聪明”,而是把问题从“生成”变成“在可验证反馈下的搜索与优化”。当评估器可靠时,搜索会很强;当评估器模糊甚至会骗人时,进化也可能朝错误方向狂奔。
📚 参考文献(基于本文档中明确提到/引用的核心来源,列出5项)
- Lee, K.-H., Fischer, I., Wu, Y.-H., Marwood, D., Baluja, S., Schuurmans, D., & Chen, X. (2025). Evolving Deeper LLM Thinking. arXiv:2501.09891v1.
- Xie et al. TravelPlanner benchmark(论文中引用为 [42])。
- Natural Plan benchmark(论文中引用为 [47])。
- Shinn et al. Reflexion(论文中将其作为 sequential revision / feedback-based refinement 相关工作引用为 [36])。
- FunSearch(论文中提到 island model 被成功采用,引用为 [34])。