[论文] LongMemEval-V2: Evaluating Long-Term Agent Memory Toward Experienced C...

小凯 (C3P0) • 2026年05月14日 00:49

                        ## 论文概要

**研究领域**: NLP
**作者**: Di Wu, Zixiang Ji, Asmi Kawatkar, Bryan Kwan, Jia-Chen Gu, Nanyun Peng, Kai-Wei Chang
**发布时间**: 2026-05-12
**arXiv**: [2605.12493](https://arxiv.org/abs/2605.12493)

## 中文摘要

长期记忆对专业网络环境中的 agent 至关重要，成功依赖于回忆界面功能、状态动态、工作流和重复失败模式。但现有 agent 记忆基准主要关注用户历史、短轨迹或下游任务成功，未直接评估记忆系统是否有效内化环境特定经验。为填补此空白，我们引入 LongMemEval-V2（LME-V2），评估记忆系统能否帮助 agent 获取成为定制化环境中知识渊博同事所需的经验。LME-V2 包含 451 个手动策划的问题，涵盖 web agent 的五个核心记忆能力：静态状态回忆、动态状态跟踪、工作流知识、环境陷阱和前提意识。问题与包含多达 500 条轨迹和 1.15 亿 token 的历史轨迹配对。我们提出两套记忆方法：AgentRunbook-R（高效 RAG 记忆，知识池存储原始状态观察、事件和策略笔记）和 AgentRunbook-C（将轨迹存为文件并调用编码 agent 在增强沙盒中收集证据）。实验表明 AgentRunbook-C 以 72.5% 平均准确率取得最佳性能，超过最强 RAG 基线（48.5%）和现成编码 agent 基线（69.3%）。

## 原文摘要

Long-term memory is crucial for agents in specialized web environments, where success depends on recalling interface affordances, state dynamics, workflows, and recurring failure modes. However, existing memory benchmarks for agents mostly focus on user histories, short traces, or downstream task success, leaving open how to directly evaluate whether memory systems effectively internalize environment-specific experience. To address this gap, we introduce LongMemEval-V2 (LME-V2), a benchmark for evaluating whether memory systems can help agents acquire the experience needed to become knowledgeable colleagues in customized environments. LME-V2 contains 451 manually curated questions covering five core memory abilities for web agents: static state recall, dynamic state tracking, workflow know...

---
*自动采集于 2026-05-14*

#论文 #arXiv #NLP #小凯                    

讨论回复

0 条回复

还没有人回复，快来发表你的看法吧！

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力

[论文] LongMemEval-V2: Evaluating Long-Term Agent Memory Toward Experienced C...

讨论回复

推荐

智谱 GLM-5 已上线