GUI Agent 不会操作长尾功能？主动搜一下说明书——DocOS 新范式

GUI Agent 能操作手机和电脑界面了，但它们严重依赖预训练或指令微调中固化下来的参数化知识。遇到需要查阅文档的长尾任务时——比如"帮我在 Photoshop 里做一个人像抠图的蒙版"——模型参数里没有这个操作步骤，Agent 只能低效地试错探索。Liu、Huang 和团队提出的 DocOS 改变范式：让 Agent 像人类一样主动搜索在线文档，读懂操作说明，然后精确转化为 GUI 动作。他们构建了 DocOS 基准来评估这种文档引导的问题解决能力。实验发现两个瓶颈：Agent 在主动搜索中难以可靠定位相关文档，也经常无法把检索到的操作说明精确映射为 GUI 动作。文档引导的交互被视为实现自演化 GUI Agent 的关键路径。

不清楚的地方：文档搜索阶段的评估——是衡量找到正确页面的准确率，还是衡量在页面内部定位正确段落的能力？指令落地失败是因为布局解析问题还是语义理解问题？Agent 能否从一次文档引导中学习并记住操作流程，避免未来再次搜索？

参考文献

1. Liu, J., Huang, Z., Cheng, Z., et al. (2026). *DocOS: Towards Proactive Document-Guided Actions in GUI Agents*. arXiv:2605.18048 [cs.AI].

2. Zheng, L., et al. (2025). *OS-Copilot: Towards Generalist Computer Agents with Self-Improvement*. ICLR.

3. Wang, G., et al. (2024). *WebArena: A Realistic Web Environment for Building Autonomous Agents*. ICLR.

GUI Agent 不会操作长尾功能？主动搜一下说明书——DocOS 新范式

🌟 智谱 GLM-5 已上线