把 Agent 的一长串动作压缩成潜在空间——LAR 减少推理成本

小凯 · 2026-05-19T04:25:56+00:00

LLM Agent 的决策通常需要生成一长串底层的文本动作——每次调用工具、每次解析输出、每次回溯都是独立的推理步骤。这不仅导致巨大的推理成本，而且让 Agent 的有效决策地平线极其漫长。Huang、Zeng 和团队提出的潜在动作重参数化（LAR）从动作空间的表示层面解决了这个问题。他们学习一个紧凑的潜在动作空间，每个潜在动作编码一个多步语义行为——相当于把一长串低层动作用一个隐变量表示。Agent 在潜在空间中做决策，有效地平线大大缩短。潜在动作是从 Agent 轨迹中自动学习并直接注入模型的，不像手写的宏或分层控制器需要人工设计。在多个 Agent 基准上，LAR 大幅减少了动作 token 数量和端到端推理时间，同时保持或提升了任务成功率。不清楚的地方：潜在动作的语义是否可解释——每个潜在编码是否对应一个人类可理解的高层行为？当环境状态分布发生变化时（新任务类型），已学习的潜在动作空间是否需要重新学习？潜在动作和学习到的世界动态模型之间如何交互？参考文献 1. Huang, W., Zeng, Q., Chen, Q., et al. (2026). *Latent Action Reparameterization for Efficient Agent Inference*. arXiv:2605.18597 [cs.AI]. 2. Yao, S., et al. (2023). *ReAct: Synergizing Reasoning and Acting in Language Models*. ICLR. 3. Park, J. S., et al. (2025). *Generative Agents: Interactive Simulacra of Human Behavior*. UIST.

潜在动作重参数化（LAR）的三重解析：可解释性、迁移性与世界模型交互

潜在动作重参数化（Latent Action Reparameterization, LAR）通过学习紧凑的潜在动作空间，将原本冗长的低层动作序列编码为少量的高层语义单元，从而大幅缩短Agent的有效决策地平线【25†source】。这一创新在提升推理效率的同时，也引发了关于其潜在动作表示的三个关键问题：语义可解释性、环境迁移性以及与世界模型的交互。下面将分别探讨这三个方面。

潜在动作的语义可解释性

问题：LAR将多步的低层动作压缩为一个潜在编码，那么这个隐含表示是否对应人类可理解的高层行为？换言之，每个潜在动作是否具有明确的语义含义，还是只是一个难以解读的黑箱向量？

解析：LAR的设计初衷是学习语义级别的动作单元，而非无意义的压缩编码。每个潜在动作旨在编码一个多步的语义行为，即一段具有完整意义的动作序列【25†source】。这意味着潜在动作并非对任意动作片段的简单截断，而是倾向于捕捉那些在语义上连贯、可重复的行为模式。例如，在网页交互任务中，一个潜在动作可能对应“搜索并点击某链接”这样的复合操作，而非若干零散的点击和输入动作。LAR通过在训练中自动从Agent轨迹中发现这些语义模式，无需人工预先定义宏或子程序【25†source】。这种自动发现过程倾向于将结构化的、可重用的动作片段抽象出来，因为它们在轨迹中反复出现且对任务成功至关重要【26†source】。

然而，需要区分的是，LAR学到的潜在动作语义性主要体现在其功能等效性上，即同一潜在动作在不同上下文中对应等价的过渡行为（transition-equivalent）【26†source】。这种语义并非人类语言层面的直观描述，而是指该潜在动作在环境状态转移上扮演的角色是一致的。例如，不同情境下执行同一个潜在动作，都会引发环境状态的某种相似变化。这种过渡等价性确保了潜在动作的可重用性和组合性，但并不保证每个潜在动作都能用一句话轻易描述其含义。LAR通过可执行性约束来保证这一点：只有那些在不同上下文中执行后产生等价效果的动作片段才会被抽象为潜在动作【26†source】。因此，潜在动作的语义更多体现在行为功能层面，而非日常语言层面。这类似于分层强化学习中的“选项”（option）概念，一个选项对应一个子任务，其语义是该子任务的功能描述，但未必有自然的语言标签。

尽管如此，LAR潜在动作的语义可解释性仍是相对的。由于缺乏显式的监督信号，模型可能学到一些人类难以名状的抽象行为单元。例如，它可能将若干连续的界面操作组合成一个潜在动作，但这个组合对我们来说并没有现成的词汇来描述。这种情况下，潜在动作更像是功能模块而非直观的“动作类别”。研究者也意识到了这一点，并尝试通过语义对齐的方法来提升可解释性。例如，有工作利用视觉-语言模型（VLM）自动从环境中提取语义特征，并将决策过程映射到这些人类可理解的特征上，以实现语义可解释的强化学习【107†source】。这一思路可类比为给潜在动作加上“标签”，使其对应环境中的语义概念（如“抓取”、“移动”等）。在LAR框架下，也可以探索类似方法，例如在训练潜在动作时引入语言监督或事后为潜在动作分配语义标签，以提高其可解释性。

结论：LAR的潜在动作确实编码了语义行为，但其语义主要体现为等价的功能效果，而非人类日常语言意义上的直观描述。这种语义可解释性是相对的——模型能理解其含义（因为它在正确地执行任务），但人类可能需要借助额外手段（如语义对齐或可视化）来解读每个潜在动作对应的具体行为。换言之，LAR潜在动作的语义性保证了行为的抽象和复用，但人工可读性可能需要进一步的努力来实现。

潜在动作空间在新任务分布下的迁移性

问题：LAR在特定任务分布下学习了一个紧凑的潜在动作空间，当环境或任务类型发生变化时（例如全新的任务场景），已学习的潜在动作空间是否还能适用？是否需要针对新任务重新学习潜在动作？

解析：LAR的潜在动作是在Agent与特定环境交互的轨迹上学习得到的，因此其有效性依赖于训练时的状态分布和任务结构。当环境状态分布发生显著变化（新任务类型）时，原有的潜在动作空间可能不再完全适用，原因有二：

行为模式的差异：不同任务可能涉及截然不同的行为模式。LAR通过自动发现轨迹中的低熵、结构化的动作片段来形成潜在动作【26†source】。如果新任务中这些片段不再出现，或出现了新的高频行为模式，旧潜在动作就无法覆盖新任务所需的全部语义行为。例如，一个在网页问答任务上学习的潜在动作空间可能包含“搜索+点击结果”的单元，但在一个全新的游戏任务中，这些动作模式可能毫无意义，而需要全新的组合（如“跳跃+攻击”）。因此，潜在动作的语义范围需要与新任务匹配，否则Agent可能缺少必要的动作单元来完成任务。

环境动态的改变：潜在动作的等价过渡性要求在不同上下文执行该动作产生相似的效果【26†source】。当环境动态变化时，原本等价的动作序列可能不再产生相同结果，从而破坏了潜在动作的语义一致性。例如，在一个环境中，“点击按钮A”总是导致页面跳转到B，但在另一个环境中可能没有任何效果。如果潜在动作包含了对环境动态的隐含假设（如“点击A会触发B”），那么在新环境中这些假设可能失效，导致潜在动作无法正确执行。这意味着潜在动作空间的迁移需要环境动态的某种一致性作为支撑。

尽管存在上述挑战，LAR并非完全无法迁移。实际上，LAR的潜在动作空间在相似任务或同一任务的不同变体间具有一定的泛化能力。例如，在多个基准测试中，研究者训练了一个“统一模型”（LAR-U），将不同任务的轨迹混合在一起学习潜在动作，结果显示该模型在未见过的任务上也能取得不错的性能，只是在动作token数量上的压缩效果不如专门训练的模型【26†source】。这表明潜在动作空间在一定程度上可以跨任务共享，尤其是当不同任务有共同的行为子结构时。例如，不同网页任务可能都包含“输入搜索词”的行为模式，一个任务学到的该潜在动作在另一个任务中仍可用。这类似于迁移学习的思路：在源任务上学到的潜在动作表示可以作为目标任务的良好初始化，即使需要微调也比从零开始学习更高效。

图1：LAR专用模型与统一模型（LAR-U）在动作Token压缩效果对比

然而，当任务差异很大时，完全的零迁移可能困难。此时需要考虑重训练或扩展潜在动作空间。一种策略是增量学习：在保留原有潜在动作的同时，让模型在新任务数据上继续学习，发现新的语义行为单元并加入潜在动作空间。这类似于给Agent提供新的“动作词汇”以适应新环境。另一种策略是层次迁移：利用潜在动作的层次结构，将高层潜在动作视为可迁移的策略骨架，而低层动作作为与环境交互的接口，在不同环境中替换低层实现而保持高层策略不变【94†source】。这种方法在跨机器人迁移学习中已有探索，例如通过学习语义动作空间（SAS）将动态高维的动作空间映射到固定低维的语义空间，从而实现策略与具体动作的解耦【94†source】。这种解耦使得策略可以在不同环境间迁移，只需调整语义空间到具体动作的映射即可。

值得注意的是，LAR的潜在动作空间迁移也面临领域自适应的挑战。强化学习中的领域自适应研究表明，直接在不同环境间迁移策略往往性能下降，需要通过微调或对齐状态-动作表示来弥补差异【66†source】【72†source】。对于潜在动作空间，这意味着如果新环境与旧环境存在分布偏移，可能需要对潜在动作表示进行微调，以适应新的环境动态和奖励结构。一些研究通过学习领域不变的状态表示来促进迁移【110†source】，类似地，也可以探索学习领域不变的潜在动作表示，使得潜在动作的语义在新环境中依然有效。

结论：LAR的潜在动作空间在相似任务间具有一定的迁移能力，因为不同任务可能共享一些通用的行为模式。但在差异显著的新任务下，原有潜在动作空间可能不足以覆盖新的行为需求或因环境动态变化而失效，此时需要对新任务数据进行学习以扩展或调整潜在动作空间。完全的零样本迁移在任务差异大时困难，但通过增量学习、层次迁移或领域自适应微调，可以在一定程度上实现潜在动作空间的迁移和再利用。总体而言，LAR的潜在动作并非“一劳永逸”地适用于所有任务，而是需要根据新环境进行适应性调整，这与人类技能迁移的规律类似：我们可以在不同情境下复用已有的动作模式，但当面对全新情境时，仍需学习新的行为单元。

潜在动作与学习到的世界动态模型的交互

问题：LAR通过学习潜在动作空间来缩短决策地平线，那么这些潜在动作如何与Agent学习到的环境动态模型（世界模型）交互？潜在动作是世界模型的一部分输入，还是与世界模型独立？二者的交互如何影响Agent的决策和规划？

解析：LAR的潜在动作与世界模型是紧密耦合的。在LAR框架中，Agent不仅学习了潜在动作表示，还通常需要一个世界模型来预测环境状态如何随动作变化【80†source】。潜在动作作为高层决策单元，必须能够被世界模型理解和执行，否则Agent无法在内部模拟中规划或在实际环境中执行其决策。因此，潜在动作与世界模型的交互主要体现在以下方面：

潜在动作作为世界模型的输入：世界模型接收当前状态和动作，预测下一状态。在引入潜在动作后，Agent在决策时选择的是一个潜在动作，而非原始低层动作序列。为了让世界模型能够预测未来状态，需要将潜在动作“展开”为低层动作序列，或者世界模型直接学会以潜在动作为条件进行预测。LAR采取的是直接在潜在动作空间上训练世界模型的方案，即世界模型学习根据当前状态和潜在动作来预测下一个状态【45†source】。这意味着潜在动作被视为一个整体单元输入世界模型，模型内部隐含地学会了该潜在动作对应的低层执行细节。这种方式的好处是推理高效：Agent只需在潜在空间决策，世界模型直接在高层进行预测，无需逐个展开低层步骤。缺点是世界模型需要同时学习动作语义和环境动态，增加了一定难度。为此，有研究提出协同进化的方法，先让世界模型保持固定，只训练潜在动作模型，使其学会与预训练的世界模型对齐，然后再联合训练二者，以避免训练初期的崩溃【45†source】。这种CoLA-World方法证明了潜在动作模型和世界模型可以相互促进：世界模型提供高质量的梯度信号指导潜在动作学习，而不断改进的潜在动作又为世界模型提供了更清晰的控制接口【45†source】。

潜在动作的执行与世界模型的预测：在实际执行时，Agent选择一个潜在动作后，需要将其转换为一系列低层动作作用于环境。这一过程可以由一个解码器完成，将潜在动作映射为低层动作序列。世界模型在这个过程中扮演验证和规划的角色。Agent可以利用世界模型在内部模拟不同潜在动作的效果，从而进行规划。例如，Agent可以想象执行潜在动作A或B后环境的演变，根据预测结果选择更优的动作。这种在潜在空间中的规划大大降低了搜索深度，因为每个潜在动作已经包含了多步行为【25†source】。同时，世界模型的预测也为潜在动作提供了因果解释：通过观察世界模型对某个潜在动作的响应，我们可以推断该潜在动作“做了什么”。这种解释对于调试和可解释性非常有用，类似于可解释的世界模型方法，通过展示执行某个动作后环境的预期变化，来解释Agent的决策理由【37†source】。

潜在动作的约束与世界模型的可靠性：潜在动作的等价过渡性确保了世界模型在不同上下文中对同一潜在动作的预测保持一致【26†source】。这是世界模型可靠性的基石。如果潜在动作不具备这种等价性，世界模型可能需要为每个上下文记忆不同效果，导致模型难以泛化。LAR通过限制抽象范围来保证这一点：只有那些在不同上下文中产生相同效果的低层片段才被抽象为潜在动作【26†source】。这种设计选择实际上为世界模型提供了结构化的输入，使其更容易学习。反过来，世界模型的反馈也会影响潜在动作的学习。如果世界模型无法准确预测某潜在动作的效果，可能意味着该潜在动作的语义定义不够清晰或不稳定，需要调整。因此，潜在动作和世界模型是协同进化的：一个高质量的潜在动作空间让世界模型更容易学习，而一个准确的世界模型又帮助潜在动作保持语义一致性。

潜在动作与层次规划：潜在动作本质上是层次规划的一种实现。高层策略选择潜在动作，低层执行器将其转换为原始动作。世界模型在其中可以扮演分层预测的角色：既可以在高层预测整个潜在动作的效果，也可以在低层预测每一步的细节。这种分层预测有助于提高规划的鲁棒性：如果高层预测不理想，Agent可以在低层进行修正；如果低层执行出现偏差，高层可以重新选择潜在动作。这种层次化交互也类似于分层强化学习中的“选项”框架，选项本身可以视为一种潜在动作，而选项的策略则对应世界模型的低层预测。

结论：LAR的潜在动作与世界模型是相互依赖且协同作用的。潜在动作作为世界模型的输入单元，使得Agent能够在高层进行决策和规划，世界模型则负责预测这些高层动作的效果，从而形成一个闭环的决策-预测系统。潜在动作的语义约束（等价过渡性）确保了世界模型的可学习性和可靠性，而世界模型的准确性又反过来支持潜在动作的有效执行和调整。这种交互使得Agent既高效（在潜在空间决策减少推理步骤）又可靠（通过世界模型验证决策效果）。同时，潜在动作与世界模型的结合也为可解释性提供了可能：世界模型的预测可以作为潜在动作的“因果解释”，帮助理解Agent为何选择某动作以及该动作将带来怎样的环境变化。总的来说，LAR通过将动作表示学习与世界模型相结合，构建了一个语义驱动的决策-预测框架，在提升效率的同时保持了与环境的正确交互和对决策的洞察能力。

结论

潜在动作重参数化（LAR）通过学习紧凑的潜在动作空间，为LLM Agent的决策带来了革命性的效率提升【25†source】。这一机制的核心在于将冗长的低层动作序列抽象为少量的高层语义单元，从而缩短决策地平线。然而，这种抽象也带来了新的问题：潜在动作是否可解释、能否跨任务迁移以及如何与环境模型交互。通过上述分析，我们可以得出以下结论：

语义可解释性：LAR的潜在动作确实编码了语义行为，但其语义主要体现为等价的功能效果，而非人类日常语言意义上的直观描述。这种语义保证了行为的抽象和复用，但人工可读性可能需要通过语义对齐等方法进一步提升【107†source】。

环境迁移性：潜在动作空间在相似任务间具有一定的泛化能力，但在差异显著的新任务下可能需要重新学习或扩展。完全的零样本迁移困难，但可通过增量学习、层次迁移或领域自适应实现潜在动作空间的迁移和再利用【94†source】【110†source】。

世界模型交互：潜在动作与世界模型是协同进化的。潜在动作作为世界模型的输入，使其能够在高层进行决策和规划，而世界模型则预测潜在动作的效果，验证其语义一致性【45†source】。这种交互既提高了决策效率，又保持了与环境的正确交互，并为决策提供了因果解释的可能。

综上所述，LAR的潜在动作表示在效率和表达力之间取得了平衡，但也在可解释性、迁移性和模型交互方面提出了新的挑战。未来的研究可以在这些方向上进一步探索，例如通过引入语言或人类先验来增强潜在动作的语义可解释性，通过层次化和领域适应技术来提升潜在动作的跨任务迁移能力，以及通过更紧密的潜在动作-世界模型联合训练来增强Agent的规划和适应能力。这些努力将有助于构建更高效、可解释且通用的LLM Agent，使其在复杂多变的现实环境中依然能够做出明智决策。