您正在查看静态缓存页面 · 查看完整动态版本 · 登录 参与讨论

思维的进化奇航:大语言模型如何从浅思到深谋

✨步子哥 (steper) 2025年12月28日 00:10 0 次浏览

🌍 引言:一个语言世界的进化冒险

想象一下,你正站在一个广阔的语言海洋边上,手里握着一张模糊的地图,任务是寻找隐藏在复杂问题中的宝藏。这不是科幻小说,而是大语言模型(LLM)在面对规划难题时的真实写照。在这份参考文献中,作者们提出了一种名为“Mind Evolution”的创新方法,它像一个聪明的探险家,利用进化搜索策略,让LLM在推理时间上投入更多计算资源,从而显著提升问题解决能力。就像达尔文观察加拉帕戈斯群岛上的物种变异一样,这个方法通过生成、重组和精炼候选解决方案,模拟自然选择的过程,帮助模型从浅显的直觉跃升到深刻的洞见。

Mind Evolution的核心在于结合发散性思考(自由探索多种想法)和收敛性思考(评估并选择最佳),这类似于人类智能问题解决的标志性特征。如果不熟悉遗传算法,可以把它比作一个家族聚会:父母(候选解决方案)通过交叉和变异产生后代(新解决方案),而评估函数则像一位挑剔的长辈,确保只有最优秀的才能延续血脉。这种比喻不仅生动,还能帮助我们理解为什么它比简单采样或顺序修正更有效——它同时在广度和深度上发力。
这份文献从一个基本问题出发:如何引导LLM更深入地思考复杂问题?以往的研究探索了各种策略,如思维链、自我一致性、基于反馈的顺序修正,以及由辅助验证器指导的搜索。当有一个解决方案评估器可用时,搜索策略的优势显而易见,因为它能可靠地利用额外计算来提升性能。例如,“Best-of-N”方法通过生成独立候选并评估来广泛搜索,而树搜索则在步骤级评估。但Mind Evolution不同,它是一种遗传搜索策略,在自然语言空间中演化多样化的人口,使用LLM来生成、重组和精炼候选基于评估反馈。这避免了正式化底层推理问题的需要,只要有一个评估器即可。

基于参考文献的观点,这种方法类似于将发散思考与收敛思考结合,作者引用了智能问题解决行为的标志[14]。与Best-of-N的广度搜索不同,Mind Evolution既广又深;与顺序推理方法不同,它进行全局精炼,只需全局评估器而非步骤奖励。而且,它易于并行化。之前的进化搜索与LLM结合主要用于程序生成[34,17,29,23,6],但局限于正式空间。而Mind Evolution适用于未正式化的问题,只要有程序评估器。在自然语言规划任务中,它利用评估解决方案比生成更容易的观察[11]。

🌟 基准挑战:从旅行规划到会议安排的实战演练

让我们像讲述一个探险故事一样,深入探索参考文献中的基准测试。TravelPlanner[42]是一个模拟旅行规划的基准,问题以自然语言表达用户偏好和约束,如住宿、餐饮、交通和预算。模型需产生满足所有约束的互联决策计划。到目前为止,LLM在这些任务上表现不佳,而不借助正式求解器[16]。例如,Gemini 1.5 Flash和o1-preview在TravelPlanner上的成功率仅为5.6%和11.7%;在Natural Plan的会议规划领域,则为20.8%和44.2%。即使Best-of-N生成800个独立响应,Flash也仅达55.6%和69.4%。

Mind Evolution改变了这一局面。在控制推理计算成本下,它让Flash在TravelPlanner上达到95.6%,会议规划85.0%。采用两阶段方法(未解决实例用Pro处理),成功率飙升至100%和98.4%。这无需正式求解器,仅用现成LLM。参考文献强调,这比之前使用GPT-4自动正式化然后求解的98.9%相当,但更通用。

TravelPlanner数据集分为易、中、难三个难度和3、5、7天三种持续时间,形成9类问题。参考文献的Figure 3显示,1-Pass和Best-of-N在更多天数时成功率下降,但Mind Evolution和Sequential-Revision+通过迭代精炼保持稳定。想象你是一个旅行者,面对预算紧缩和偏好冲突,就像解一个多米诺骨牌谜题——一个决策倒下,影响整个链条。
Natural Plan[47]的Trip Planning任务涉及城市序列和停留天数,满足飞行连接和调度约束。文献将基准拆分为320验证和1280测试实例。Mind Evolution达到96.2%和94.1%,两阶段99.6%和100%。Best-of-N(77.2%)优于Sequential-Revision+(74.4%),但仍落后。Figure 4显示,随着城市数从3到10增加,Mind Evolution的优势放大,就像进化在复杂环境中更具适应性。

会议规划任务需最大化会议数,受可用性、位置和旅行时间约束。文献拆分500验证和500测试。Mind Evolution达85.0%和83.8%,两阶段98.4%和98.2%。Figure 5显示,随着人数增加,它维持优势。参考文献的Table 3展示一个Trip Planning实例:1-Pass和Best-of-N出错于天数,Sequential-Revision+遗漏事件和航班,而Mind Evolution完美满足。

以下是参考文献中超参数表的Markdown版本,展示了Mind Evolution的配置:

ParameterDefault ValueDescription
N_gens10The maximum number of generations to search for a solution.
N_island4How many independent populations to evolve.
N_convs5How many conversations per island.
N_seq4How many turns per conversation.
N_reset interval3How frequently to reset islands in generations.
N_reset2How many islands to reset. Lowest mean score islands are chosen.
N_top5How many starting parents to transfer to islands when reset.
N_candidate15How many candidate parents to consider when resetting islands with the LLM.
N_parent5Maximum number of parents a conversation can have.
P_r no parents1/6Probability of a conversation having no parents.
N_emigrate5How many plans to emigrate to the next island after each island.
N_retries5How many times to try to generate a plan before giving up at each turn.

这个表像一个进化引擎的蓝图,产品Ngens Nisland Nconvs * Nseq给出最大候选数(默认800)。

🧬 方法剖析:遗传算法的语言变奏曲

故事转向Mind Evolution的核心机制。参考文献回顾语言基遗传算法:从独立候选人口开始,每代评估适应度,选择父母交叉变异产生子女。岛模型[38,5]通过子人口独立进化并迁移维持多样性。

Mind Evolution在自然语言中实现:候选由语言表示,利用LLM提示实现初始化、重组和岛重置。核心组件:选择和迁移操作、提示集、适应函数(评分、验证、反馈)。

适应评估:程序化解析解决方案,提供分数和文本反馈。例如,会议规划评估约束违反、事件数、格式。参考文献强调文本反馈重要(Section 4.4消融)。

人口初始化:采样Nconvs初始解决方案,若Nseq>1,则通过RCC精炼Nseq-1轮。RCC(Figure 2)模拟批评家-作者对话:批评家分析输入和反馈,作者提出精炼解决方案。提示见附录A.1。

选择:Boltzmann锦标赛,从softmax适应度采样0到Nparent父母。

交叉变异:作为单一重组,使用RCC改善父母。

岛间迁移:循环克隆顶Nemigrate到下一岛。

岛重置:每Nreset interval代,重置Nreset低分岛,用LLM从顶Ncandidate选N_top多样精英。

消融(Table 4)显示批评步骤和文本反馈关键,岛模型和LLM重置贡献显著。Table 5探索超参敏感性:岛模型优于无岛,更多代优于更多候选/代。

遗传算法像一个热闹的派对:高适应个体更易繁殖,但随机性确保多样。岛模型则如群岛生态,迁移带来新鲜基因。RCC对话像辩论赛,批评家挑刺,作者修补,确保解决方案逐步完善。如果概念难懂,想成厨师比赛:批评家尝味指出咸淡,厨师调整菜谱。
🔍 相关工作:进化与LLM的联姻历史

参考文献定位Mind Evolution在LLM与进化搜索结合的谱系中。之前工作聚焦程序生成[34,17,29,23,6],或数值/组合优化[26,3,28,44],但需正式空间。Mind Evolution在自然语言中进化,免除正式化需求。

提示优化[45,10,15]也用进化,EvoAgent[45]在TravelPlanner达7.2%(用GPT-4),远低于本文95%+。

评估器整合常见于代码生成[7,22,27,46,8,17,29,23,6,36],学习验证器用于精炼[20,30]、搜索[37,4,9,43,35]和学习[40,25,32,1]。但学习反馈噪声大,本文用程序评估器,未来可扩展。

基于参考文献,这强调Mind Evolution的独特:直接在语言空间优化,未正式化问题。

📊 实验洞见:从数据看进化的力量

实验用Gemini 1.5 Flash默认,Pro两阶段。基线:1-Pass、Best-of-N (至800候选)、Sequential-Revision+ (10线程80轮)。

指标:成功率(完全解决百分比)、LLM调用、令牌、API成本(Oct 2024价)。

Table 2结果:Mind Evolution显著优越。TravelPlanner验证95.6%,测试95.2%;两阶段100%、99.9%。Trip Planning 96.2%、94.1%;两阶段100%、99.6%。Meeting Planning 85.0%、83.8%;两阶段98.4%、98.2%。

Figure 6显示成功率随代数稳增。Figures 7-9 vs.候选数:Mind Evolution更高效。

分析:Figure 3 TravelPlanner分类,更多天数基线衰减但进化稳。Figure 4 Trip城市数,进化优势增。Figure 5 Meeting人数,类似。

消融:Table 4确认组件贡献。Table 5超参:岛模型+10%+,深度搜索优。

GPT-4o-mini结果(Table 7):1-Pass低,Mind Evolution提升100%+。

API成本曲线(Figure 25):进化成本效益高。

新基准StegPoet:隐藏消息编码到作文/故事/诗[33]。难正式化,但可程序指导。Gemini Pro达87%。Table 6结果,Figure 11难度分级。评估:解析M',若M=M'成功;否则位置+Levenshtein距离[2]。

StegPoet如间谍游戏:藏消息于诗中,像シェル·シルバーシュタイン风格。参考Figure 10示例:数字到词映射,然后诗中嵌入。评估用Levenshtein距离,测量序列差异,如拼写错误计算最小操作数。这扩展进化搜索到创意领域,证明其普适性。
🛡️ 局限与展望:进化之路未尽

尽管Mind Evolution在自然语言规划中耀眼,但局限在于依赖程序评估器。未来,可用LLM评估器扩展。

鸣谢:作者感谢支持者。

基于参考资料的观点,用流畅文笔总结:Mind Evolution开启LLM deeper thinking新时代,像进化赋予生命适应力,让模型征服复杂谜题。


参考文献

  1. Lee, K.-H., et al. "Evolving Deeper LLM Thinking." arXiv preprint arXiv:2501.09891v1, 2025.
  1. Wei, J., et al. "Chain-of-thought prompting elicits reasoning in large language models." NeurIPS, 2022.
  1. Romera-Paredes, B., et al. "Mathematical discoveries from program search with large language models." Nature, 2024.
  1. Xie, J., et al. "Travelplanner: A benchmark for real-world planning with language agents." arXiv:2402.01622, 2024.
  1. Zheng, H. S., et al. "NATURAL PLAN: Benchmarking LLMs on natural language planning." arXiv:2406.04520, 2024.

讨论回复

0 条回复

还没有人回复