Agent舰队：使用大型语言模型协调解决问题

概述与背景

随着大型语言模型（LLMs）如GPT-4、LLaMA等展现出强大的推理和问题解决能力，构建通用自主代理的研究兴趣日益浓厚。然而，现有的推理框架在成本和质量之间的权衡上存在挑战。本文介绍的FLEET OF AGENTS (FOA)框架是一种新颖且直观但有原则的框架，利用LLMs作为代理，通过遗传型粒子过滤方法进行动态树搜索，有效平衡了探索与利用的权衡。

FOA在三个基准任务（"Game of 24"、"Mini-Crosswords"和"WebShop"）上进行了广泛实验，使用了四种不同的LLMs（GPT-3.5、GPT-4、LLaMA3.2-11B和LLaMA3.2-90B）。平均而言，在所有任务和模型上，FOA在仅需先前SOTA方法约40%的成本的情况下，获得了约5%的质量提升。

FOA架构与工作原理

FOA框架的核心思想是创建一个由多个代理组成的"舰队"，每个代理自主探索搜索空间，然后通过基于启发式值函数的重采样选择阶段，优化探索与利用之间的平衡。这种机制实现了动态分支，根据发现的解决方案调整探索策略。

初始化：创建n个代理，每个代理从初始状态开始

变异阶段：每个代理独立进行k步状态转换

选择阶段：基于值函数重采样代理状态

迭代：重复变异和选择阶段，直到找到解决方案或达到资源限制

与传统的树搜索方法不同，FOA提供了对树宽度（n个代理）和深度（t步）的精确控制，从而实现了可预测的延迟和成本。相比之下，树搜索方法通过在每个步骤扩展c个最有希望的状态，无法提供这种控制，其搜索树可能呈指数级增长。

遗传粒子过滤机制

FOA的核心是遗传型粒子过滤机制，该机制通过一系列变异和选择步骤捕捉代理群体的动态。每个代理在舰队中自主行动，尝试根据当前状态选择最佳动作。在k个独立步骤后，使用值函数对状态集进行重采样，并将更多代理分配给高价值状态。

变异阶段

在变异阶段，FOA中的每个代理独立采样状态转换。我们引入模型π来捕捉代理决策的随机性以及环境的响应，即si,t+1 ∼ π(s|si,t)。通过边缘化中间状态，我们使用相同的符号表示多步状态转换，即si,t+k ∼ π(si,t+k|si,t)。在每次变异步骤后，我们可以检查是否找到解决方案并决定停止搜索。遵循遗传过滤的概念，我们应用了两个优化：

强制变异：代理必须变异其状态；不能保持静止。
突然死亡：如果我们注意到代理i已进入无效状态1terminal(si,t)，则立即从集合sj,t, j ≠ i中重采样其状态。这种重采样可以是均匀的，以避免对值函数的昂贵调用。

选择阶段

选择阶段基于重要性采样机制重采样代理群体。我们观察所有当前状态的值估计v(si,t)并计算重采样权重pi,t。该框架可以捕捉许多重采样方案，例如值的线性、贪婪或指数加权：

Python

# 线性加权
plin(si,t) = α * v(si,t) + β

# 指数加权
pexp(si,t) = exp(v(si,t) / β)

# 贪婪加权
pgreedy(si,t) = {
    1, 如果 si,t = arg max sj,t,j=1..N v(sj,t)
    0, 否则
}

然后，我们进行有放回的重采样，以选择一组新的代理状态：

Python

# 计算重采样分布
pt(s) = Σ(i=1 to N) [pi,t / Σ(j=1 to N) pj,t] * δsi,t(s)

# 有放回重采样
ŝi,t ~ pt(s), i = 1..N

# 更新状态
si,t = ŝi,t, i = 1..N

回溯机制

此外，通过跟踪状态历史和相关的值函数估计，我们通过直观的回溯机制扩展了重采样过程。回溯撤销局部错误，使我们的代理舰队能够从所有代理都可能做出错误决策的灾难性场景中恢复。为了激励代理舰队向前推进并探索状态空间的新区域，我们引入了折扣因子γ。t个时间步前访问的状态值被γ^t折扣。

实验结果与性能分析

我们在三个基准任务上评估了FOA框架的有效性，这些任务需要各种推理、规划和通用问题解决技能。实验使用了四种不同的LLMs作为基础模型：GPT-4、GPT-3.5、LLaMA3.2-11B和LLaMA3.2-90B。

Game of 24任务

Game of 24是一个数学谜题，给出四个数字，目标是形成一个等于24的算术表达式，每个数字恰好使用一次。如表1所示，FOA在所有现有基线方法中表现最佳，取得了最佳质量。以GPT-4为基准，FOA实现了70%的质量提升。在成本和质量之间取得良好平衡，我们的FOA在第二好的方法ToT的基础上获得了2%的质量提升，同时将成本要求降低了25%。

方法	成功率 (%)	成本 (US$)
IO	6.0	0.65
CoT	6.0	6.98
CoT-SC	10.0	49.40
AoT	49.0	20.98
ToT	74.0	75.02
GoT	63.0	70
FOA (本文)	76.0	62.93

Mini Crosswords任务

Mini Crosswords是一个谜题，给出5个垂直和5个水平线索，目标是使用线索识别答案并将它们放在5×5的填字游戏板上。如表2所示，FOA再次优于所有现有基线方法，取得了最佳质量。我们的FOA在所有基准方法中报告了最佳的成本-质量权衡。我们在第二好的方法GoT的基础上获得了5%的质量提升，同时将其成本要求降低了60%。

方法	重叠率 (%)	成本 (US$)
IO	36.8	0.51
CoT	39.4	1.06
CoT-SC	39.4	2.82
ToT	39.7	48.99
GoT	41.2	30.28
FOA (本文)	46.0	12.94

WebShop任务

WebShop是一个模拟的电子商务网站环境，给出指定产品及其属性的文本指令，目标是通过使用各种操作导航网页来找到产品并购买它。如表3所示，FOA优于所有现有基线方法，甚至优于监督微调模型，取得了最佳质量。我们的FOA再次实现了最佳的成本-质量权衡：在第二好的方法LATS的基础上获得了10%的质量提升，仅需要其1%的成本。

类型	方法	平均得分	成本 (US$)
监督学习	IL	59.9	NA
	IL+RL	62.4	NA
	WebN-T5	61.0	NA
	WebGUM	67.5	NA
上下文学习	Act	58.1	0.10
	ReAct	48.7	0.17
	Reflexion	56.3	0.65
	LASER	57.2	0.41
	LATS	66.1	232.27
	FOA (本文)	75.6	1.68
人类专家	Hum. experts	82.1	NA

与其他方法的比较

FOA与现有的推理框架有根本性的区别。首先，与AoT和元提示等需要复杂或精细提示工程的方法不同，FOA不需要。此外，FOA非常适合需要与环境交互的顺序决策任务，如网页导航，这对CoT和BoT等方法可能具有挑战性。此外，FOA通过使用基于遗传型粒子过滤器的细化策略，而不是语言反馈，将自己与Reflexion和RAFA等方法区分开来。最后，与基于树搜索的方法不同，FOA采用更有原则的方法来探索搜索树，实现了探索与利用之间更好的平衡。

成本-质量权衡

FOA的最大优势是能够在探索与利用之间取得平衡。我们在图1中提供了早期经验证据，该图比较了基于树的SOTA方法与FOA在不同价格点的性能。我们发现FOA在所有可能的价格点都显著优于现有的SOTA方法，从而在基准方法中实现了最佳的成本-质量权衡。

模型大小与质量权衡

图5显示，单独使用时，11B和90B的Llama3.2模型在基准任务上的质量都很差。然而，FOA将两个模型的性能提升了5-6倍。更重要的是，Llama3.2-11B + FOA超过了更大的Llama3.2-90B模型。总体而言，FOA使较小的模型能够获得与较大模型相当甚至更好的性能，从而缩小了它们之间的推理能力差距。

FOA的优势与局限性

优势

更好的质量：基于§4和附录C.5中提出的结果，FOA在所有基准任务和基础模型上始终优于所有现有的SOTA方法。
更好的成本-质量权衡：我们的结果表明FOA具有成本效益，远比其他SOTA推理框架更具成本效益。此外，我们在§5中的分析显示，FOA在所有可能的价格点都显著优于所有SOTA方法。
非提示方案而是运行时：与现有的基于提示的框架不同，FOA不需要定制制作的提示，而是可以与任何现有的代理或提示策略结合使用。
精确控制：FOA提供了对树宽度（n个代理）和深度（t步）的精确控制，从而实现了可预测的延迟和成本。
稳定性：如较小的标准误差所示（附录C.5），FOA在多次运行中产生一致的响应，相对比其他方法更稳定。

局限性

固定舰队大小：目前，我们为每个任务分配固定数量n的代理。然而，为更困难的任务分配更多代理以提高样本效率可能是有利的。未来，我们希望探索自适应舰队大小的可能性。
重采样机制：一个改进途径是设计更智能的值函数，例如，汇集来自邻近状态的信息并平滑预测。基于精确的值估计，我们可以研究不同的重采样机制，将FOA调整为更具风险寻求或谨慎的行为，即探索与利用之间的不同权衡。
舰队组织：目前，我们考虑的是由相同代理组成的同质舰队。未来，我们希望通过分层组织结构在单个代理之间引入进一步的协调。例如，如果代理可以在嵌套粒子过滤框架中生成其他代理会怎样？

结论与未来工作

在LLM的生命周期中，大部分成本是在推理阶段而非训练阶段产生的。因此，基准测试各种SOTA推理框架所产生的成本至关重要。我们的工作是第一个报告、分析和讨论各种LLM的SOTA推理框架的成本-质量权衡的工作。我们希望这项工作将引发关于推理框架成本效益的进一步讨论，并最终导致开发出实用且可持续的LLM推理框架。

总体而言，我们希望我们的工作将激励在（遗传）过滤算法与AI代理编排相结合方面的进一步研究。FOA框架不仅是一种提高LLM推理能力的有效方法，还为构建更高效、更可持续的AI系统提供了新的思路。