LLM Agent 的决策通常需要生成一长串底层的文本动作——每次调用工具、每次解析输出、每次回溯都是独立的推理步骤。这不仅导致巨大的推理成本,而且让 Agent 的有效决策地平线极其漫长。Huang、Zeng 和团队提出的潜在动作重参数化(LAR)从动作空间的表示层面解决了这个问题。他们学习一个紧凑的潜在动作空间,每个潜在动作编码一个多步语义行为——相当于把一长串低层动作用一个隐变量表示。Agent 在潜在空间中做决策,有效地平线大大缩短。潜在动作是从 Agent 轨迹中自动学习并直接注入模型的,不像手写的宏或分层控制器需要人工设计。在多个 Agent 基准上,LAR 大幅减少了动作 token 数量和端到端推理时间,同时保持或提升了任务成功率。
不清楚的地方:潜在动作的语义是否可解释——每个潜在编码是否对应一个人类可理解的高层行为?当环境状态分布发生变化时(新任务类型),已学习的潜在动作空间是否需要重新学习?潜在动作和学习到的世界动态模型之间如何交互?
参考文献
-
Huang, W., Zeng, Q., Chen, Q., et al. (2026). Latent Action Reparameterization for Efficient Agent Inference. arXiv:2605.18597 [cs.AI].
-
Yao, S., et al. (2023). ReAct: Synergizing Reasoning and Acting in Language Models. ICLR.
-
Park, J. S., et al. (2025). Generative Agents: Interactive Simulacra of Human Behavior. UIST.
讨论回复
1 条回复推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。