您正在查看静态缓存页面 · 查看完整动态版本 · 登录 参与讨论

让大模型“长出大脑皮层”:一场把思考变成进化的实验

✨步子哥 (steper) 2025年12月28日 02:59 0 次浏览
想象一下,你面前站着一位才华横溢却有点急躁的写作者:给他一个复杂任务——规划一趟满足几十条约束的旅行、安排一整天的会面、或者把一段数字暗号藏进一首像 Shel Silverstein 那样顽皮的诗——他往往会“灵光一现”给出一版答案,然后就卡住了。 问题并不在于他不聪明,而在于他太像人类的第一反应:先写个差不多的,再说。可在这些任务里,“差不多”通常等价于“错”。 Kuang-Huei Lee 等人(Google DeepMind)在 2025 年的论文《Evolving Deeper LLM Thinking》(arXiv:2501.09891v1)里,给这种急躁的天才配了一套很“生物学”的外挂:让答案像物种一样进化。他们把它叫做 Mind Evolution

🧠 从“想一想”到“想得更深”:推理时算力到底该怎么花?

大语言模型(LLM)过去几年最让人着迷的,不是它会背知识——而是它偶尔会“像在思考”。于是一个自然的问题出现了:

我们能不能在不训练、不微调的前提下,只靠推理阶段(inference time)的额外计算,让模型更会解题?

此前的路线大致分几派:

  • Chain-of-Thought(思维链):让模型写出推理过程(论文提到 [41,21])。
  • Self-consistency(自洽):采样多条推理链,投票选答案([39])。
  • Sequential revision / Reflexion(逐步修订):模型自己(或在反馈下)反复改稿([36,30,8,19,1])。
  • Best-of-N:一次生成 N 个完整答案,挑最好的([4,24,25])。
  • Tree search / verifier-guided search:树搜索或用验证器引导的搜索([37,43])。
这些方法共同的主题是:把更多推理时计算,换成更高成功率。但现实是,很多任务最难的地方并不是“多想几步”,而是:
  1. 约束分散在自然语言里,难以形式化;
  2. 你可能不知道每一步该怎么评分;
  3. 但你往往能写出一个程序:告诉你最终答案到底合不合格。
Mind Evolution 就抓住了这点:“会评估”比“会生成”更容易——这在经典计算理论里也很有名(论文引用 [11],强调验证通常比求解容易,许多 NP 问题便是如此)。

🌱 Mind Evolution:让答案像物种一样繁衍、杂交与突变

论文的核心贡献可以用一句话概括:

Mind Evolution 是一种面向自然语言解空间的遗传搜索策略:只要你有一个“解的评估器”,就能在不形式化问题的情况下,用 LLM 生成、重组与迭代改进候选解。
它像把两种认知模式拼接在一起:
  • 发散思维:并行探索很多不同想法;
  • 收敛思维:评估、筛选、修正并逐步逼近可行解。
论文在 Figure 1 用旅行规划举例:模型先吐出 Plan A/Plan B,评估器指出“超预算”“餐饮偏好没满足”等,然后系统做“选择—交叉—突变”的改造,进入下一代(Gen 2、Gen 3…),直到找到有效解或达到最大代数。

与 Best-of-N 的关键差别在于:

  • Best-of-N 只宽不深:候选彼此独立,评估完就结束;
  • Mind Evolution 又宽又深:不仅保留多样性,还会对好苗子进行反复打磨。
与常见“逐步推理/树搜索”的差别在于:
  • 很多树搜索需要给“每一步推理”打分(过程奖励、stepwise evaluation);
  • Mind Evolution 做的是整体解的全局修订,因此只需要一个全局解评估器,不需要过程级奖励。

🧬 语言版遗传算法:自然语言也能当“基因”?

论文先回顾遗传算法(Genetic Algorithm):

  • 有一群候选解(population);
  • 每个候选解都有“基因表示”(这里就是自然语言方案);
  • 每代:评估适应度(fitness)→ 按适应度概率选择父母(selection)→ 交叉重组(crossover)→ 突变(mutation)→ 产生下一代。
关键点在于:在传统优化中,交叉/突变是对向量或字符串做操作;而 Mind Evolution 把这些操作交给 LLM 来做,通过 prompt 让它完成“重组与改写”。
小贴士: 在这里,“基因”不是固定长度编码,而是一段可读的自然语言方案。LLM 既是“基因编辑器”,又是“繁殖机制”,评估器则相当于自然选择的环境压力。

🗣️ RCC:让模型分裂成“挑刺者”和“作者”,把改稿变成制度

Mind Evolution 的一个重要设计,是论文称为 Refinement through Critical Conversation(RCC) 的机制(Figure 2)。

每一轮改进不是简单让模型“再想想”,而是把模型扮演成两个角色:

  • Critic(批评者):阅读候选解 + 评估器反馈,分析哪里错、为什么错、怎么改;
  • Author(作者):根据 Critic 的建议,产出新的完整解。
作者们认为:把“挑错”和“写作”分离,可以提升 LLM 的批判性思维质量。这一点在他们的消融实验里也得到了支持(后文会说)。

🏝️ 岛屿模型:防止“全村都学坏了”的群体多样性机制

进化搜索最怕一种灾难:早熟收敛。大家都被某个看似不错的模式诱导,最终全体陷入局部最优。

论文引入经典的 Island Model(岛屿模型)

  • 把种群分成多个“岛屿”(子群体)独立进化;
  • 允许“迁徙”(migration):把一个岛的优秀解复制到下一个岛;
  • 允许“岛屿重置”(island reset):把表现差的岛整体替换成全局优秀解,以恢复质量与多样性。
这也是 FunSearch 等成功进化系统常用的手段(论文提到 [34])。

⚙️ 关键超参数:800 个候选解不是巧合

论文 Table 1 列出默认超参数:

  • 最大代数:$N_{gens}=10$
  • 岛屿数:$N_{island}=4$
  • 每岛对话数:$N_{convs}=5$
  • 每对话轮数:$N_{seq}=4$
这四个数相乘:$10 \times 4 \times 5 \times 4 = 800$,对应“最多生成 800 个候选解”的预算,用于与 Best-of-N 的公平对比(同样最多 800)。

其他参数还包括:

  • 重置间隔 $N_{reset\ interval}=3$、每次重置 $N_{reset}=2$ 个岛;
  • 迁徙数 $N_{emigrate}=5$
  • 每次重组最多父母数 $N_{parent}=5$
  • 对话无父母概率 $P_{rno\ parents}=1/6$(用于保留随机探索);
  • 每 turn 重试 $N_{retries}=5$
这些参数背后体现一个朴素哲学:既要允许“偶尔离经叛道”,也要不断把资源押在更好的个体上

🧪 三大任务:旅行规划、行程规划、会议规划——以及一个“诗歌隐写”新挑战

作者们选择的测试场景很有代表性:它们共同特征是——问题用自然语言描述,很难形式化,但可以写评估器检查解是否满足约束

1) 🧳 TravelPlanner:旅游计划(预算、酒店、餐饮、交通……)

论文指出:在这个基准上,LLM 单次生成非常差:

  • Gemini 1.5 Flash:5.6%(val,1-pass)
  • o1-preview(参考):11.7%(val,1-pass)
即便 Best-of-N 采样到 800 次,Gemini 1.5 Flash 也只有 55.6%

而 Mind Evolution 在“控制推理成本”的前提下达到:

  • 95.6%(val)
  • 95.2%(test)
并且平均成本(Table 2)反而更低于 Best-of-N:
  • Best-of-N val:472 次 LLM 调用,成本 $0.47
  • Mind Evolution val:174 次调用,成本 $0.29
这很像现实写作:盲目写 472 篇不同作文,不如写 174 次“有反馈的修改”。

更狠的是两阶段策略:

  • 先用 Flash 跑 Mind Evolution,没解出来的再用 Pro;
  • TravelPlanner 达到 100%(val)/ 99.9%(test)
论文强调:此前能接近这种成绩的工作 [16] 需要“先形式化 + 用正式求解器”,而 Mind Evolution 不需要 formal solver

2) 🗺️ Natural Plan – Trip Planning:多个城市、航班连通、指定天数与事件

在 Trip Planning:

  • Mind Evolution:96.2%(val)/ 94.1%(test)
  • Best-of-N:77.2%(val)
  • Sequential-Revision+:74.4%(val)
两阶段(+Pro)后:
  • 100%(val)/ 99.6%(test)
论文还展示了一个非常“有戏剧性”的例子(Table 3): 1-pass 和 Best-of-N 都在“天数”上犯错;Sequential revision 虽天数对了,却漏掉了 Madrid 的 show 事件,还安排了不存在的航班;Mind Evolution 则同时满足所有条件。

这揭示一个现实:不同策略会在不同类型错误上“有偏差”。进化式策略的优势在于,它能通过多样性 + 反馈纠偏,让系统更可能同时击中所有约束。

3) 📅 Natural Plan – Meeting Planning:目标是“尽可能多见朋友”,还要考虑旅行时间

Meeting Planning 更像优化问题:不一定存在“满足所有人”的完美解,需要在约束下最大化会面人数。

结果(Table 2):

  • Mind Evolution:85.0%(val)/ 83.8%(test)
  • Best-of-N:69.4%
  • Sequential-Revision+:62.0%
两阶段(+Pro):
  • 98.4%(val)/ 98.2%(test)
论文还给了一个例子(Table 10):Mind Evolution 找到“见 Sandra + Mark + Kevin + Amanda”的计划,没见到 Michelle,但被判定为最佳可能方案(因为时间窗与地点移动限制使得 Michelle 很难兼顾)。这也体现了评估器在优化任务中的作用:它不仅“判对错”,还能体现目标函数。

4) 🕵️‍♂️ StegPoet:把数字信息藏进诗里(新基准)

这是论文引入的新任务,目的是证明 Mind Evolution 的适用范围不只限于“容易形式化的规划”,还能处理难以形式化但可验证的问题。

StegPoet 要求:

  • 给一串数字消息 $M$,先建立数字→单词的一一映射(cipher);
  • 写一篇指定风格(诗/故事/随笔)的文本,把 cipher 单词按顺序嵌进去,从而编码消息;
  • 还要求平均每两个密码词之间至少隔 $B$ 个普通词($3 \le B \le 7$),避免“直接把密码词列表贴出来”。
结果(Table 6)非常夸张:
  • 1-pass:0%
  • Best-of-N:1%
  • Sequential-Revision+:19.8%
  • Mind Evolution(Flash):46.5%
  • 两阶段(+Pro):87.1%(val)/ 79.2%(test)
如果说前三个规划任务是“工程性约束地狱”,StegPoet 则是“审美与规则的双重枷锁”:既要像诗,又要精确编码,还要避免密码词在别处误触发。这类任务最符合论文的动机:生成很难,但验证相对可程序化

📈 进化真的在“越想越深”吗?——关于规模与曲线

论文给出一个关键图(Figure 6):随着代数从 1 增加到 10,三个规划任务的成功率稳步上升。这说明 Mind Evolution 的性能确实随着推理时计算增加而增长。

另外 Figures 7–9 以“候选解数量”为横轴,比较 Mind Evolution、Best-of-N、Sequential-Revision+:

  • 所有方法都会随候选数增加而更好(这很正常);
  • Mind Evolution 始终在同等候选数下更有效:达到同样成功率需要更少候选。
论文还提出一个有趣观察:Best-of-N 在 TravelPlanner 上表现特别差,他们推测原因是 TravelPlanner 有很多隐含常识约束(例如回到起点、餐厅不能重复等),这些约束并不会在题面显式列出,而是需要从评估反馈中学习;Best-of-N 不利用反馈,自然就“撞不到门”。

🧩 消融实验:到底是哪块“脑叶”最管用?

论文在 TravelPlanner 验证集做了消融(Table 4),结论非常明确:

  • Critic 步骤很关键:去掉 critic,性能显著下降;
  • 评估器的文本反馈很关键:不给反馈也会大幅掉点;
  • 任务特定的 Strategy/Question prompts 有帮助;
  • 用 LLM 做 island reset 的“多样性挑选”比纯按分数挑精英更好。
论文甚至把最关键的两样点得很直白:critic + textual feedback 是最重要的
小贴士: 这其实在解释一个常见现象:很多模型“知道怎么做对”,但需要有人把错误指给它看。评估器的反馈是“现实世界的摩擦力”,Critic 则是“把摩擦力翻译成改稿计划”的中枢神经。

🔬 评估函数:他们到底怎么“判卷子”?

Mind Evolution 的关键前提是:有一个程序化 evaluator

论文 A.2 详细讲了三类任务的评分逻辑:总体原则是“满分为 0”,违反约束就扣分(负分越多越差),并附带文本反馈。

  • TravelPlanner:基于官方评估代码修改,使其输出累积分数 + 违反约束的文本反馈。测试集约束只在文本里,作者用 Gemini 1.5 Flash 抽取成 JSON,并在验证集上验证抽取结果与官方 JSON 完全一致。
  • Trip Planning:因为问题是程序生成的,约束可从文本解析;评估包括城市天数、指定日期事件、航班连通、JSON 格式等。
  • Meeting Planning:既有约束(时间地点可达、不能重复见同一人等),也有目标(尽可能多见朋友);论文给出示例代码(Figure 23–24)展示如何逐步模拟时间线并给出反馈。

💸 成本:更聪明,还是更烧钱?

“推理时搜索”最容易被质疑的一点是:你是不是用钱堆出来的?

论文的回答很务实:他们不仅报告成功率,还报告 LLM 调用次数、token 数和 API 成本(Table 2),并强调必须控制推理成本来比较策略。

在 TravelPlanner 上,Mind Evolution 甚至比 Best-of-N 更便宜;Sequential-Revision+ 则非常贵,因为 80-turn 对话会吞掉大量输入 token(论文 Figure 25 也展示了成本-成功率曲线,Sequential-Revision+ 曲线往往被截断,因为太费)。

此外还有一个策略很工程:两阶段。先用便宜模型探索,大多数实例搞定;少数困难样本再上贵模型 Pro,整体更具性价比。


🧭 结论与局限:进化不是万能钥匙,但它把“可验证的难题”打开了一条路

论文的结论(Section 6)很清晰:

  • Mind Evolution 通过推理时进化搜索,在 TravelPlanner 与 Natural Plan 上显著超过 Best-of-N 与 sequential revision;
  • 在不依赖正式求解器的情况下,达到非常高成功率;
  • StegPoet 证明它能处理更难形式化的任务,只要能验证。
局限同样直接(Limitations):
  • 目前聚焦于“能程序化评估与批评”的任务;
  • 未来希望用 LLM-based evaluators 扩展到更广泛领域,但论文也提醒:学习型评估器可能噪声大、不可靠(Related Work 部分也提到这一点)。
小贴士: 换句话说,Mind Evolution 的魔法不是“让模型凭空更聪明”,而是把问题从“生成”变成“在可验证反馈下的搜索与优化”。当评估器可靠时,搜索会很强;当评估器模糊甚至会骗人时,进化也可能朝错误方向狂奔。

📚 参考文献(基于本文档中明确提到/引用的核心来源,列出5项)

  1. Lee, K.-H., Fischer, I., Wu, Y.-H., Marwood, D., Baluja, S., Schuurmans, D., & Chen, X. (2025). Evolving Deeper LLM Thinking. arXiv:2501.09891v1.
  2. Xie et al. TravelPlanner benchmark(论文中引用为 [42])。
  3. Natural Plan benchmark(论文中引用为 [47])。
  4. Shinn et al. Reflexion(论文中将其作为 sequential revision / feedback-based refinement 相关工作引用为 [36])。
  5. FunSearch(论文中提到 island model 被成功采用,引用为 [34])。

讨论回复

0 条回复

还没有人回复