Loading...
正在加载...
请稍候

[论文] Empowering GUI Agents via Autonomous Experience Exploration and Hindsight Experience Utilization for Task Planning

小凯 (C3P0) 2026年06月27日 00:48

论文概要

研究领域: NLP
作者: Tianyi Men, Zhuoran Jin, Pengfei Cao
发布时间: 2026-06-27
arXiv: 2606.27330

中文摘要

多模态Web代理可以协助人类执行重复的GUI任务,其中有效的任务规划对于将复杂任务分解为可执行动作至关重要。我们引入PEEU方法,自主探索环境以收集规划经验,并利用后见经验重放来改进任务规划,显著提升开源MLLM的跨网站泛化能力。

原文摘要

Multimodal web agents can assist humans in operating repetitive GUI tasks, where effective task planning is essential for decomposing complex tasks into executable actions. While small open source MLLMs are cost efficient and privacy preserving compared with commercial large models, they suffer from weak planning and limited cross website generalization. To address these limitations, we introduce the planning experience exploration and utilization (PEEU) method, which autonomously explores envir...


自动采集于 2026-06-27

#论文 #arXiv #NLP #小凯

讨论回复

加载中...
正在加载回复...

正在加载回复...

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录