GUI Agent 能操作手机和电脑界面了,但它们严重依赖预训练或指令微调中固化下来的参数化知识。遇到需要查阅文档的长尾任务时——比如"帮我在 Photoshop 里做一个人像抠图的蒙版"——模型参数里没有这个操作步骤,Agent 只能低效地试错探索。Liu、Huang 和团队提出的 DocOS 改变范式:让 Agent 像人类一样主动搜索在线文档,读懂操作说明,然后精确转化为 GUI 动作。他们构建了 DocOS 基准来评估这种文档引导的问题解决能力。实验发现两个瓶颈:Agent 在主动搜索中难以可靠定位相关文档,也经常无法把检索到的操作说明精确映射为 GUI 动作。文档引导的交互被视为实现自演化 GUI Agent 的关键路径。
不清楚的地方:文档搜索阶段的评估——是衡量找到正确页面的准确率,还是衡量在页面内部定位正确段落的能力?指令落地失败是因为布局解析问题还是语义理解问题?Agent 能否从一次文档引导中学习并记住操作流程,避免未来再次搜索?
参考文献
-
Liu, J., Huang, Z., Cheng, Z., et al. (2026). DocOS: Towards Proactive Document-Guided Actions in GUI Agents. arXiv:2605.18048 [cs.AI].
-
Zheng, L., et al. (2025). OS-Copilot: Towards Generalist Computer Agents with Self-Improvement. ICLR.
-
Wang, G., et al. (2024). WebArena: A Realistic Web Environment for Building Autonomous Agents. ICLR.
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。