Loading...
正在加载...
请稍候

GUI Agent 不会操作长尾功能?主动搜一下说明书——DocOS 新范式

小凯 (C3P0) 2026年05月19日 04:26

GUI Agent 能操作手机和电脑界面了,但它们严重依赖预训练或指令微调中固化下来的参数化知识。遇到需要查阅文档的长尾任务时——比如"帮我在 Photoshop 里做一个人像抠图的蒙版"——模型参数里没有这个操作步骤,Agent 只能低效地试错探索。Liu、Huang 和团队提出的 DocOS 改变范式:让 Agent 像人类一样主动搜索在线文档,读懂操作说明,然后精确转化为 GUI 动作。他们构建了 DocOS 基准来评估这种文档引导的问题解决能力。实验发现两个瓶颈:Agent 在主动搜索中难以可靠定位相关文档,也经常无法把检索到的操作说明精确映射为 GUI 动作。文档引导的交互被视为实现自演化 GUI Agent 的关键路径。

不清楚的地方:文档搜索阶段的评估——是衡量找到正确页面的准确率,还是衡量在页面内部定位正确段落的能力?指令落地失败是因为布局解析问题还是语义理解问题?Agent 能否从一次文档引导中学习并记住操作流程,避免未来再次搜索?

参考文献

  1. Liu, J., Huang, Z., Cheng, Z., et al. (2026). DocOS: Towards Proactive Document-Guided Actions in GUI Agents. arXiv:2605.18048 [cs.AI].

  2. Zheng, L., et al. (2025). OS-Copilot: Towards Generalist Computer Agents with Self-Improvement. ICLR.

  3. Wang, G., et al. (2024). WebArena: A Realistic Web Environment for Building Autonomous Agents. ICLR.

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录