让大模型“长出大脑皮层”：一场把思考变成进化的实验

✨步子哥 (steper) • 2025年12月28日 02:59 • 0 次浏览

想象一下，你面前站着一位才华横溢却有点急躁的写作者：给他一个复杂任务——规划一趟满足几十条约束的旅行、安排一整天的会面、或者把一段数字暗号藏进一首像 Shel Silverstein 那样顽皮的诗——他往往会“灵光一现”给出一版答案，然后就卡住了。问题并不在于他不聪明，而在于他太像人类的第一反应：先写个差不多的，再说。可在这些任务里，“差不多”通常等价于“错”。 Kuang-Huei Lee 等人（Google DeepMind）在 2025 年的论文《Evolving Deeper LLM Thinking》（arXiv:2501.09891v1）里，给这种急躁的天才配了一套很“生物学”的外挂：让答案像物种一样进化。他们把它叫做 Mind Evolution。

🧠 从“想一想”到“想得更深”：推理时算力到底该怎么花？

大语言模型（LLM）过去几年最让人着迷的，不是它会背知识——而是它偶尔会“像在思考”。于是一个自然的问题出现了：

我们能不能在不训练、不微调的前提下，只靠推理阶段（inference time）的额外计算，让模型更会解题？

此前的路线大致分几派：

Chain-of-Thought（思维链）：让模型写出推理过程（论文提到 [41,21]）。
Self-consistency（自洽）：采样多条推理链，投票选答案（[39]）。
Sequential revision / Reflexion（逐步修订）：模型自己（或在反馈下）反复改稿（[36,30,8,19,1]）。
Best-of-N：一次生成 N 个完整答案，挑最好的（[4,24,25]）。
Tree search / verifier-guided search：树搜索或用验证器引导的搜索（[37,43]）。

这些方法共同的主题是：把更多推理时计算，换成更高成功率。但现实是，很多任务最难的地方并不是“多想几步”，而是：

约束分散在自然语言里，难以形式化；
你可能不知道每一步该怎么评分；
但你往往能写出一个程序：告诉你最终答案到底合不合格。

Mind Evolution 就抓住了这点：“会评估”比“会生成”更容易——这在经典计算理论里也很有名（论文引用 [11]，强调验证通常比求解容易，许多 NP 问题便是如此）。

🌱 Mind Evolution：让答案像物种一样繁衍、杂交与突变

论文的核心贡献可以用一句话概括：

Mind Evolution 是一种面向自然语言解空间的遗传搜索策略：只要你有一个“解的评估器”，就能在不形式化问题的情况下，用 LLM 生成、重组与迭代改进候选解。

它像把两种认知模式拼接在一起：

发散思维：并行探索很多不同想法；
收敛思维：评估、筛选、修正并逐步逼近可行解。

论文在 Figure 1 用旅行规划举例：模型先吐出 Plan A/Plan B，评估器指出“超预算”“餐饮偏好没满足”等，然后系统做“选择—交叉—突变”的改造，进入下一代（Gen 2、Gen 3…），直到找到有效解或达到最大代数。

与 Best-of-N 的关键差别在于：

Best-of-N 只宽不深：候选彼此独立，评估完就结束；
Mind Evolution 又宽又深：不仅保留多样性，还会对好苗子进行反复打磨。

与常见“逐步推理/树搜索”的差别在于：

很多树搜索需要给“每一步推理”打分（过程奖励、stepwise evaluation）；
Mind Evolution 做的是整体解的全局修订，因此只需要一个全局解评估器，不需要过程级奖励。

🧬 语言版遗传算法：自然语言也能当“基因”？

论文先回顾遗传算法（Genetic Algorithm）：

有一群候选解（population）；
每个候选解都有“基因表示”（这里就是自然语言方案）；
每代：评估适应度（fitness）→ 按适应度概率选择父母（selection）→ 交叉重组（crossover）→ 突变（mutation）→ 产生下一代。

关键点在于：在传统优化中，交叉/突变是对向量或字符串做操作；而 Mind Evolution 把这些操作交给 LLM 来做，通过 prompt 让它完成“重组与改写”。

小贴士：在这里，“基因”不是固定长度编码，而是一段可读的自然语言方案。LLM 既是“基因编辑器”，又是“繁殖机制”，评估器则相当于自然选择的环境压力。

🗣️ RCC：让模型分裂成“挑刺者”和“作者”，把改稿变成制度

Mind Evolution 的一个重要设计，是论文称为 Refinement through Critical Conversation（RCC） 的机制（Figure 2）。

每一轮改进不是简单让模型“再想想”，而是把模型扮演成两个角色：

Critic（批评者）：阅读候选解 + 评估器反馈，分析哪里错、为什么错、怎么改；
Author（作者）：根据 Critic 的建议，产出新的完整解。

作者们认为：把“挑错”和“写作”分离，可以提升 LLM 的批判性思维质量。这一点在他们的消融实验里也得到了支持（后文会说）。

🏝️ 岛屿模型：防止“全村都学坏了”的群体多样性机制

进化搜索最怕一种灾难：早熟收敛。大家都被某个看似不错的模式诱导，最终全体陷入局部最优。

论文引入经典的 Island Model（岛屿模型）：

把种群分成多个“岛屿”（子群体）独立进化；
允许“迁徙”（migration）：把一个岛的优秀解复制到下一个岛；
允许“岛屿重置”（island reset）：把表现差的岛整体替换成全局优秀解，以恢复质量与多样性。

这也是 FunSearch 等成功进化系统常用的手段（论文提到 [34]）。

⚙️ 关键超参数：800 个候选解不是巧合

论文 Table 1 列出默认超参数：

最大代数： $N_{gens}=10$
岛屿数： $N_{island}=4$
每岛对话数： $N_{convs}=5$
每对话轮数： $N_{seq}=4$

这四个数相乘：

10 \times 4 \times 5 \times 4 = 800

，对应“最多生成 800 个候选解”的预算，用于与 Best-of-N 的公平对比（同样最多 800）。

其他参数还包括：

重置间隔 $N_{reset\ interval}=3$ 、每次重置 $N_{reset}=2$ 个岛；
迁徙数 $N_{emigrate}=5$ ；
每次重组最多父母数 $N_{parent}=5$ ；
对话无父母概率 $P_{rno\ parents}=1/6$ （用于保留随机探索）；
每 turn 重试 $N_{retries}=5$ 。

这些参数背后体现一个朴素哲学：既要允许“偶尔离经叛道”，也要不断把资源押在更好的个体上。

🧪 三大任务：旅行规划、行程规划、会议规划——以及一个“诗歌隐写”新挑战

作者们选择的测试场景很有代表性：它们共同特征是——问题用自然语言描述，很难形式化，但可以写评估器检查解是否满足约束。

1) 🧳 TravelPlanner：旅游计划（预算、酒店、餐饮、交通……）

论文指出：在这个基准上，LLM 单次生成非常差：

Gemini 1.5 Flash：5.6%（val，1-pass）
o1-preview（参考）：11.7%（val，1-pass）

即便 Best-of-N 采样到 800 次，Gemini 1.5 Flash 也只有 55.6%。

而 Mind Evolution 在“控制推理成本”的前提下达到：

95.6%（val）
95.2%（test）

并且平均成本（Table 2）反而更低于 Best-of-N：

Best-of-N val：472 次 LLM 调用，成本 $0.47
Mind Evolution val：174 次调用，成本 $0.29

这很像现实写作：盲目写 472 篇不同作文，不如写 174 次“有反馈的修改”。

更狠的是两阶段策略：

先用 Flash 跑 Mind Evolution，没解出来的再用 Pro；
TravelPlanner 达到 100%（val）/ 99.9%（test）。

论文强调：此前能接近这种成绩的工作 [16] 需要“先形式化 + 用正式求解器”，而 Mind Evolution 不需要 formal solver。

2) 🗺️ Natural Plan – Trip Planning：多个城市、航班连通、指定天数与事件

在 Trip Planning：

Mind Evolution：96.2%（val）/ 94.1%（test）
Best-of-N：77.2%（val）
Sequential-Revision+：74.4%（val）

两阶段（+Pro）后：

100%（val）/ 99.6%（test）

论文还展示了一个非常“有戏剧性”的例子（Table 3）： 1-pass 和 Best-of-N 都在“天数”上犯错；Sequential revision 虽天数对了，却漏掉了 Madrid 的 show 事件，还安排了不存在的航班；Mind Evolution 则同时满足所有条件。

这揭示一个现实：不同策略会在不同类型错误上“有偏差”。进化式策略的优势在于，它能通过多样性 + 反馈纠偏，让系统更可能同时击中所有约束。

3) 📅 Natural Plan – Meeting Planning：目标是“尽可能多见朋友”，还要考虑旅行时间

Meeting Planning 更像优化问题：不一定存在“满足所有人”的完美解，需要在约束下最大化会面人数。

结果（Table 2）：

Mind Evolution：85.0%（val）/ 83.8%（test）
Best-of-N：69.4%
Sequential-Revision+：62.0%

两阶段（+Pro）：

98.4%（val）/ 98.2%（test）

论文还给了一个例子（Table 10）：Mind Evolution 找到“见 Sandra + Mark + Kevin + Amanda”的计划，没见到 Michelle，但被判定为最佳可能方案（因为时间窗与地点移动限制使得 Michelle 很难兼顾）。这也体现了评估器在优化任务中的作用：它不仅“判对错”，还能体现目标函数。

4) 🕵️‍♂️ StegPoet：把数字信息藏进诗里（新基准）

这是论文引入的新任务，目的是证明 Mind Evolution 的适用范围不只限于“容易形式化的规划”，还能处理难以形式化但可验证的问题。

StegPoet 要求：

给一串数字消息 $$M$$ ，先建立数字→单词的一一映射（cipher）；
写一篇指定风格（诗/故事/随笔）的文本，把 cipher 单词按顺序嵌进去，从而编码消息；
还要求平均每两个密码词之间至少隔 $$B$$ 个普通词（ $3 \le B \le 7$ ），避免“直接把密码词列表贴出来”。

结果（Table 6）非常夸张：

1-pass：0%
Best-of-N：1%
Sequential-Revision+：19.8%
Mind Evolution（Flash）：46.5%
两阶段（+Pro）：87.1%（val）/ 79.2%（test）

如果说前三个规划任务是“工程性约束地狱”，StegPoet 则是“审美与规则的双重枷锁”：既要像诗，又要精确编码，还要避免密码词在别处误触发。这类任务最符合论文的动机：生成很难，但验证相对可程序化。

📈 进化真的在“越想越深”吗？——关于规模与曲线

论文给出一个关键图（Figure 6）：随着代数从 1 增加到 10，三个规划任务的成功率稳步上升。这说明 Mind Evolution 的性能确实随着推理时计算增加而增长。

另外 Figures 7–9 以“候选解数量”为横轴，比较 Mind Evolution、Best-of-N、Sequential-Revision+：

所有方法都会随候选数增加而更好（这很正常）；
Mind Evolution 始终在同等候选数下更有效：达到同样成功率需要更少候选。

论文还提出一个有趣观察：Best-of-N 在 TravelPlanner 上表现特别差，他们推测原因是 TravelPlanner 有很多隐含常识约束（例如回到起点、餐厅不能重复等），这些约束并不会在题面显式列出，而是需要从评估反馈中学习；Best-of-N 不利用反馈，自然就“撞不到门”。

🧩 消融实验：到底是哪块“脑叶”最管用？

论文在 TravelPlanner 验证集做了消融（Table 4），结论非常明确：

Critic 步骤很关键：去掉 critic，性能显著下降；
评估器的文本反馈很关键：不给反馈也会大幅掉点；
任务特定的 Strategy/Question prompts 有帮助；
用 LLM 做 island reset 的“多样性挑选”比纯按分数挑精英更好。

论文甚至把最关键的两样点得很直白：critic + textual feedback 是最重要的。

小贴士：这其实在解释一个常见现象：很多模型“知道怎么做对”，但需要有人把错误指给它看。评估器的反馈是“现实世界的摩擦力”，Critic 则是“把摩擦力翻译成改稿计划”的中枢神经。

🔬 评估函数：他们到底怎么“判卷子”？

Mind Evolution 的关键前提是：有一个程序化 evaluator。

论文 A.2 详细讲了三类任务的评分逻辑：总体原则是“满分为 0”，违反约束就扣分（负分越多越差），并附带文本反馈。

TravelPlanner：基于官方评估代码修改，使其输出累积分数 + 违反约束的文本反馈。测试集约束只在文本里，作者用 Gemini 1.5 Flash 抽取成 JSON，并在验证集上验证抽取结果与官方 JSON 完全一致。
Trip Planning：因为问题是程序生成的，约束可从文本解析；评估包括城市天数、指定日期事件、航班连通、JSON 格式等。
Meeting Planning：既有约束（时间地点可达、不能重复见同一人等），也有目标（尽可能多见朋友）；论文给出示例代码（Figure 23–24）展示如何逐步模拟时间线并给出反馈。

💸 成本：更聪明，还是更烧钱？

“推理时搜索”最容易被质疑的一点是：你是不是用钱堆出来的？

论文的回答很务实：他们不仅报告成功率，还报告 LLM 调用次数、token 数和 API 成本（Table 2），并强调必须控制推理成本来比较策略。

在 TravelPlanner 上，Mind Evolution 甚至比 Best-of-N 更便宜；Sequential-Revision+ 则非常贵，因为 80-turn 对话会吞掉大量输入 token（论文 Figure 25 也展示了成本-成功率曲线，Sequential-Revision+ 曲线往往被截断，因为太费）。

此外还有一个策略很工程：两阶段。先用便宜模型探索，大多数实例搞定；少数困难样本再上贵模型 Pro，整体更具性价比。

🧭 结论与局限：进化不是万能钥匙，但它把“可验证的难题”打开了一条路

论文的结论（Section 6）很清晰：

Mind Evolution 通过推理时进化搜索，在 TravelPlanner 与 Natural Plan 上显著超过 Best-of-N 与 sequential revision；
在不依赖正式求解器的情况下，达到非常高成功率；
StegPoet 证明它能处理更难形式化的任务，只要能验证。

局限同样直接（Limitations）：

目前聚焦于“能程序化评估与批评”的任务；
未来希望用 LLM-based evaluators 扩展到更广泛领域，但论文也提醒：学习型评估器可能噪声大、不可靠（Related Work 部分也提到这一点）。

小贴士：换句话说，Mind Evolution 的魔法不是“让模型凭空更聪明”，而是把问题从“生成”变成“在可验证反馈下的搜索与优化”。当评估器可靠时，搜索会很强；当评估器模糊甚至会骗人时，进化也可能朝错误方向狂奔。

📚 参考文献（基于本文档中明确提到/引用的核心来源，列出5项）

Lee, K.-H., Fischer, I., Wu, Y.-H., Marwood, D., Baluja, S., Schuurmans, D., & Chen, X. (2025). Evolving Deeper LLM Thinking. arXiv:2501.09891v1.
Xie et al. TravelPlanner benchmark（论文中引用为 [42]）。
Natural Plan benchmark（论文中引用为 [47]）。
Shinn et al. Reflexion（论文中将其作为 sequential revision / feedback-based refinement 相关工作引用为 [36]）。
FunSearch（论文中提到 island model 被成功采用，引用为 [34]）。