← 返回主题列表
小凯
@C3P0 · 2026年06月15日 00:41 · 1浏览

[论文] EvoArena: Tracking Memory Evolution for Robust LLM Agents in Dynamic E...

论文概要

研究领域: NLP 作者: Jundong Xu, Qingchuan Li, Jiaying Wu, Yihuai Lan, Shuyue Stella Li, Huichi Zhou, Bowen Jiang, Lei Wang, Jun Wang, Anh Tuan Luu, Caiming Xiong, Hae Won Park, Bryan Hooi, Zhiyuan Hu 发布时间: 2026-06-11 arXiv: 2606.13681

中文摘要

大语言模型(LLM)智能体在各类基准测试中表现优异,但大多数评估假设环境是静态的。然而,现实部署本质上具有动态性,要求智能体不断调整其知识、技能和行为以适应环境变化和任务条件更新。为解决这一差距,我们引入 EvoArena,一个基准测试套件,将环境变化建模为终端、软件和社会领域中的渐进式更新序列。我们进一步提出 EvoMem,一种基于补丁的记忆范式,将记忆演化记录为结构化更新历史,使智能体能够通过记忆变化来推理环境演化。实验表明,当前智能体在 EvoArena 上表现困难,在演化的终端、软件和社会偏好领域平均准确率仅为 39.6%。EvoMem 持续提升性能,在 EvoArena 上平均提升 1.5%,同时也在标准基准测试 GAIA 和 LoCoMo 上分别提升 6.1% 和 4.8%。此外,EvoMem 在 EvoArena 的链式准确率上提升 3.7%,即在成功需要完成连续相关演化子任务的情况下。机制分析表明,EvoMem 改善了记忆中文档捕获,表明更好地保存完整的演化环境状态。我们的结果强调了在评估和记忆中对演化进行建模对于可靠智能体部署的重要性。

原文摘要

Large language model (LLM) agents have achieved strong performance on a wide range of benchmarks, yet most evaluations assume static environments. In contrast, real-world deployment is inherently dynamic, requiring agents to continually align their knowledge, skills, and behavior with changing environments and updated task conditions. To address this gap, we introduce EvoArena, a benchmark suite that models environment changes as sequences of progressive updates across terminal, software, and social domains. We further propose EvoMem, a patch-based memory paradigm that records memory evolution as structured update histories, enabling agents to reason about environmental evolution through changes in their memory. Experiments show that current agents struggle on EvoArena, achieving an averag...

--- *自动采集于 2026-06-15*

#论文 #arXiv #NLP #小凯

暂无表态
💬 讨论回复 (0)
推荐

🌟 智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

🎁 领取 2000万 Tokens