论文2402.17564：释放大语言模型作为提示优化器的潜力——基于梯度的模型优化器类比分析

摘要

自动提示优化（Automatic Prompt Optimization）是提升大语言模型（LLM）性能的重要途径。近期研究表明，可利用LLM自身作为提示优化器，通过迭代改进生成更优的任务提示【2402.17564】。本文提出了一种新颖的视角，通过将LLM提示优化器与基于梯度的模型优化器进行类比，来研究基于LLM的提示优化器设计【2402.17564】。为建立两者联系，作者确定了模型参数学习中的两个关键因素：更新方向和更新方法【2402.17564】。通过对这两个方面丰富的改进策略进行系统分析，作者进一步开发了一种强大的梯度启发的LLM提示优化器，称为GPO（Gradient-inspired Prompt Optimizer）【2402.17564】。在每一步优化中，GPO首先从优化轨迹中检索相关提示作为更新方向，然后采用基于生成的更新策略，并通过余弦衰减策略控制编辑距离【2402.17564】。大量实验证明了GPO的有效性和效率：与基线方法相比，GPO在Big-Bench Hard任务上带来了高达56.8%的额外性能提升，在MMLU任务上带来了高达62.6%的额外提升【2402.17564】。该研究为LLM的提示优化提供了新的理论框架，并通过实验验证了其优越性，是提示工程领域的重要工作【2402.17564】。

引言

大型语言模型（LLM）的性能在很大程度上取决于输入提示的质量。精心设计的提示可以显著提升模型在特定任务上的表现，而提示工程（Prompt Engineering）已成为一项关键技能。然而，手动设计提示既耗时又需要专业知识。因此，自动提示优化技术应运而生，旨在通过算法自动发现和改进提示，从而释放LLM的全部潜力。

传统的提示优化方法包括基于梯度下降的软提示（Soft Prompt）调优和基于搜索的硬提示（Hard Prompt）优化。软提示通过在输入空间中引入可学习的嵌入向量，利用梯度下降直接优化提示表示，但这种方法通常需要访问模型内部参数，且优化后的提示缺乏可读性。硬提示则直接优化人类可读的文本提示，早期方法如离散提示优化（例如使用强化学习或遗传算法搜索提示词）往往效率低下。近期，一种新的范式兴起：利用另一个LLM作为提示优化器，通过自然语言迭代改进提示。这种方法无需修改目标LLM的参数，且生成的提示可读性强，被视为自动提示优化的重要方向。

尽管LLM作为提示优化器展现出巨大潜力，但如何系统地设计这类优化器仍是一个开放问题。现有工作往往各自独立地提出改进策略，缺乏统一的理论指导。本文的作者们注意到了基于梯度的模型优化器（如深度学习中的参数优化算法）与LLM提示优化器之间的相似性：两者都通过迭代更新来改进“参数”——前者更新模型权重，后者更新提示文本。受此启发，他们提出将两者进行类比分析，从成熟的梯度优化理论中汲取灵感，以指导LLM提示优化器的设计【2402.17564】。这一视角为提示优化提供了新的理论框架，有望带来更系统、更高效的优化策略。

GPO方法概述

基于上述类比，作者将模型参数学习过程提炼为两个核心要素：更新方向和更新方法【2402.17564】。在传统梯度优化中，“更新方向”由梯度或其变体（如动量）给出，“更新方法”则涉及如何根据方向调整参数（如学习率、步长衰减等）。类似地，在LLM提示优化中，“更新方向”可以理解为如何确定下一步提示的改进方向，“更新方法”则对应如何具体地修改提示文本。

通过对大量改进策略的系统性分析，作者设计了GPO（Gradient-inspired Prompt Optimizer）这一新型提示优化器【2402.17564】。GPO的优化流程借鉴了梯度优化中的经典思想，但通过LLM以自然语言方式实现。在每个优化步骤中，GPO执行以下关键操作：

检索更新方向：从优化历史轨迹中检索相关的提示作为参考，以确定下一步改进的方向【2402.17564】。这类似于梯度优化中利用梯度或动量信息来指示参数更新的方向。GPO通过语义相似度等指标，从过往尝试的提示中挑选出与当前任务相关的若干提示，作为改进的“方向”。
生成式更新：利用LLM的生成能力，根据检索到的方向提示来生成新的提示【2402.17564】。这与传统梯度优化中沿梯度方向更新参数相对应。GPO并非直接编辑提示文本，而是让LLM根据参考提示“创作”出新的提示，从而实现更新。这种基于生成的更新方式可以探索更丰富的提示空间，避免陷入局部最优。
余弦衰减策略：在生成新提示时，控制其与原始提示之间的编辑距离（即差异程度）【2402.17564】。GPO采用余弦衰减策略来逐步减小更新的幅度：在优化初期允许较大的改动（较大的编辑距离），随着迭代进行逐渐减小改动幅度，使优化过程趋于稳定。这类似于梯度优化中学习率随时间衰减的策略，有助于在初期快速探索、后期精细调整。

通过上述设计，GPO将梯度优化的思想融入LLM提示优化过程。它利用历史信息指导方向，通过生成式方法实现更新，并借助衰减策略平衡探索与利用，从而高效地逼近更优的提示。

核心算法细节

1. 检索更新方向（Retrieving Update Direction）

在每一步优化开始时，GPO首先从优化轨迹（即之前生成的所有提示及其性能记录）中检索出若干与当前任务最相关的提示。这一过程类似于梯度优化中计算梯度或动量，用于确定参数更新的方向。具体而言，GPO会根据提示的语义相似度或历史表现来筛选候选提示。例如，它可能选择那些在类似任务上表现良好的提示，或者与当前提示在语义上相近但略有改进的提示。这些检索到的提示将作为“方向”信息，指导后续的更新操作。

这种检索机制确保了优化过程建立在已有经验的基础上，避免了完全随机地尝试新提示。通过借鉴历史中成功的提示模式，GPO能够更高效地朝着提升性能的方向前进。同时，由于LLM具有强大的语言理解和推理能力，GPO可以灵活地判断哪些历史提示对当前任务具有指导意义，从而实现类似梯度优化中“利用梯度信息”的效果。

2. 生成式更新（Generation-based Update）

确定了更新方向后，GPO采用生成式的方法来更新提示。具体来说，它将检索到的方向提示（以及当前提示）作为输入，提供给一个LLM（通常是比任务LLM更强大的模型，如GPT-4等），让该LLM生成一个改进后的提示【2402.17564】。这与传统梯度优化中沿梯度方向更新参数有所不同：GPO并非直接在参数空间进行向量加减，而是在文本空间通过语言模型“创作”新提示。

生成式更新的优势在于其灵活性和创造力。LLM可以根据方向提示的语义，对当前提示进行修改、扩展或重写，从而产生全新的提示文本。这种更新方式可以探索离散提示空间中更广泛的区域，有可能发现人类难以想到的巧妙提示。同时，由于LLM对语言的理解，生成的提示往往保持语法正确和语义连贯，不会像简单的随机编辑那样产生无意义的提示。

需要注意的是，生成式更新也带来了一定的挑战，例如如何控制生成提示与原始提示的差异程度。如果生成的新提示与原提示差别过大，可能偏离任务要求；如果差别过小，又可能缺乏改进。为此，GPO引入了余弦衰减策略来调节编辑距离。

3. 余弦衰减策略（Cosine-based Decay Strategy）

在梯度优化中，学习率通常会随着训练进行而衰减，以防止更新步长过大导致震荡或过冲。受此启发，GPO在生成式更新中也采用了类似的衰减策略，只不过控制的是提示文本的“编辑距离”而非数值步长【2402.17564】。具体而言，GPO根据当前迭代次数计算一个衰减因子，该因子遵循余弦函数曲线：在优化初期，衰减因子较大，允许生成的新提示与原提示有较大差异；随着迭代次数增加，衰减因子逐渐减小，限制生成提示与原提示的差异，使优化过程趋于稳定。

这种余弦衰减策略通过以下方式实现：在生成提示时，GPO可以要求LLM按照一定的相似度或修改幅度来生成新提示。例如，GPO可能指示LLM“生成一个与原提示相似度在X%左右的新提示”，其中X%由衰减因子决定。随着优化进行，X%逐渐提高（即要求相似度更高，差异更小）。通过这种方式，GPO在优化初期允许较大幅度的探索，在后期逐步收敛到更精细的调整，从而平衡了全局探索和局部利用。

余弦衰减策略的引入，使GPO的更新过程更加稳健。它避免了优化过程中提示文本发生剧烈波动，同时确保在接近最优解时能够进行微调。这种策略与梯度优化中的学习率衰减异曲同工，体现了GPO对梯度优化思想的借鉴和融合。

实验结果与性能

为了验证GPO的有效性，作者在多个基准数据集上进行了大量实验，并与现有的提示优化方法进行了对比【2402.17564】。实验主要针对Big-Bench Hard和MMLU这两项具有挑战性的任务集展开，它们涵盖了广泛的推理和知识问答任务，能够全面评估提示优化器的性能。

Big-Bench Hard是一套由23个具有挑战性的推理任务组成的基准，旨在测试LLM的复杂推理能力。MMLU则是一个大规模多任务语言理解基准，包含57个不同领域的多项选择题目，用于评估模型的知识广度和理解深度。在这两个基准上，GPO均取得了显著的性能提升。

实验结果显示，与基线方法相比，GPO在Big-Bench Hard任务上带来了高达56.8%的额外性能提升，在MMLU任务上带来了高达62.6%的额外提升【2402.17564】。这意味着，在相同的任务LLM和初始提示条件下，使用GPO优化后的提示可以使模型在这些困难任务上的表现比现有最佳方法提高超过一半。如此显著的提升充分证明了GPO的强大能力。

图1：GPO在Big-Bench Hard与MMLU基准上相较于基线的性能提升对比

此外，作者还对GPO的效率进行了评估。由于GPO利用LLM进行提示生成，其计算开销主要在于调用LLM。实验表明，GPO在有限的迭代步数内即可收敛到较优的提示，不需要过多的调用次数。这得益于GPO有效的方向检索和衰减策略，使其能够快速逼近最优解。相比之下，一些基线方法可能需要更多迭代或试错才能达到类似效果。因此，GPO在提升性能的同时，并未以牺牲效率为代价，实现了有效且高效的提示优化。

为了进一步验证GPO各组件的作用，作者进行了消融实验。例如，移除检索更新方向机制（即随机生成提示）会导致性能下降，说明利用历史信息指导方向的重要性；取消余弦衰减策略（即固定编辑距离）可能使优化过程不稳定，验证了衰减策略的必要性。这些实验结果共同证明了GPO设计的合理性：其核心组件——检索方向、生成式更新和余弦衰减——共同作用，才带来了显著的性能提升。

方法意义与影响

GPO的提出对提示工程领域具有多方面的意义和影响：

理论框架创新：GPO首次将梯度优化理论与LLM提示优化相结合，为后者提供了系统性的理论视角。这种类比分析不仅有助于理解现有提示优化方法的本质，也为未来设计新的优化策略指明了方向。通过借鉴成熟的梯度优化思想，研究者可以更自觉地探索提示优化器的设计空间，例如引入动量、自适应学习率等机制到提示优化中。
性能提升显著：GPO在多项基准上大幅刷新了提示优化的性能上限，证明了其有效性。这意味着在实际应用中，使用GPO可以显著提高LLM在复杂任务上的表现，减少对人工提示工程的依赖。对于开发者和研究者而言，GPO提供了一种强大的工具，能够自动发现高质量的提示，从而加速LLM的应用落地。
通用性与可扩展性：GPO的设计并不局限于特定任务或模型。它通过LLM自身进行优化，因此可以应用于各种需要提示的场景，包括不同领域的问答、推理、生成任务等。同时，GPO可以与不同规模的LLM配合使用，从中小型模型到超大规模模型均可受益。这种通用性使GPO具有广泛的适用前景，有望成为提示工程领域的通用优化框架。
推动提示工程范式转变：GPO的成功进一步印证了“用LLM优化LLM”这一范式的巨大潜力。它表明，我们正从人工设计提示迈向算法自动优化提示的时代。这一转变将降低使用LLM的门槛，使非专家用户也能通过自动优化获得接近专家水平的提示效果。长远来看，这有助于推动LLM在更多领域的普及和应用。

结论

论文2402.17564通过将LLM提示优化器与基于梯度的模型优化器进行类比，提出了一个新颖且强大的提示优化框架——GPO。GPO借鉴了梯度优化中的核心思想，包括利用历史信息确定更新方向、沿方向逐步更新以及采用衰减策略控制更新幅度，并将其巧妙地转化为LLM可执行的提示优化策略。实验证明，GPO在多个基准任务上取得了显著的性能提升，同时保持了较高的优化效率。这一工作不仅为提示优化提供了新的理论视角，也展示了LLM作为优化器的巨大潜力。随着GPO及其后续方法的发展，我们有理由相信，自动提示优化将成为LLM应用中的标准环节，帮助人类更充分地释放大语言模型的潜能。【2402.17564】

参考文献：

Xinyu Tang, Xiaolei Wang, Wayne Xin Zhao, Siyuan Lu, Yaliang Li, Ji-Rong Wen. Unleashing the Potential of Large Language Models as Prompt Optimizers: Analogical Analysis with Gradient-based Model Optimizers. arXiv:2402.17564, 2024【2402.17564】.