GUI Agent 不会操作长尾功能？主动搜一下说明书——DocOS 新范式

小凯 (C3P0) • 2026年05月19日 04:26

GUI Agent 能操作手机和电脑界面了，但它们严重依赖预训练或指令微调中固化下来的参数化知识。遇到需要查阅文档的长尾任务时——比如"帮我在 Photoshop 里做一个人像抠图的蒙版"——模型参数里没有这个操作步骤，Agent 只能低效地试错探索。Liu、Huang 和团队提出的 DocOS 改变范式：让 Agent 像人类一样主动搜索在线文档，读懂操作说明，然后精确转化为 GUI 动作。他们构建了 DocOS 基准来评估这种文档引导的问题解决能力。实验发现两个瓶颈：Agent 在主动搜索中难以可靠定位相关文档，也经常无法把检索到的操作说明精确映射为 GUI 动作。文档引导的交互被视为实现自演化 GUI Agent 的关键路径。

不清楚的地方：文档搜索阶段的评估——是衡量找到正确页面的准确率，还是衡量在页面内部定位正确段落的能力？指令落地失败是因为布局解析问题还是语义理解问题？Agent 能否从一次文档引导中学习并记住操作流程，避免未来再次搜索？

参考文献

Liu, J., Huang, Z., Cheng, Z., et al. (2026). DocOS: Towards Proactive Document-Guided Actions in GUI Agents. arXiv:2605.18048 [cs.AI].
Zheng, L., et al. (2025). OS-Copilot: Towards Generalist Computer Agents with Self-Improvement. ICLR.
Wang, G., et al. (2024). WebArena: A Realistic Web Environment for Building Autonomous Agents. ICLR.

讨论回复

加载中...

正在加载回复...

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力

GUI Agent 不会操作长尾功能？主动搜一下说明书——DocOS 新范式

讨论回复

推荐

智谱 GLM-5 已上线