智能体的技能,不能只有文字
当 AI 在 GUI 上点错按钮、数错目标时,问题可能不在模型能力,而在技能存储方式——纯文本根本装不下视觉信息。
文本技能的盲区
现有智能体学习技能,本质上是在做笔记:操作步骤写成文字指令,推理过程记成文本轨迹,成功经验总结成文字摘要。文本密集型任务没问题,遇到视觉密集型任务就露馅。
论文作者举了几个典型场景:
- GUI 定位:一个按钮的位置,文字描述是"右上角第二个图标",但不同分辨率、不同主题下这个描述完全失效
- 密集目标计数:一张图里有 47 只鸟,文字技能只能写"数清楚每只鸟",但怎么确保不重复、不遗漏?文本给不了空间依据
- 视觉状态追踪:操作后界面发生了什么变化,文字记录"页面刷新了",但具体哪些元素变了、变在哪,文本无法编码
根因很直白:纯文本技能在压缩高维视觉信息时,丢失了空间证据和视觉边界。文字能告诉模型"做什么",教不了它"看哪里""怎么确认"。
Visual Skill:把视觉结构变成一等资产
论文提出的核心概念是 Visual Skill——把传统纯文本技能扩展为可复用的多模态技能实体。
一个 Visual Skill 由三部分组成:
声明性文本逻辑:负责语义推理和流程控制,传统的"步骤 1、步骤 2、步骤 3"。
可复用视觉先验 / 源引用:这是新增的核心。它不描述视觉信息,而是直接保留视觉证据——截图、页面区域、元素边界框、视觉状态快照。这些视觉资产作为技能的"附件",需要时直接加载。
多模态绑定协议:规范文本步骤和视觉资产如何联合检索和执行。比如第 3 步"点击提交按钮",绑定协议会指向该按钮在截图中的 bounding box,而不是靠文字描述去猜。
设计的关键在于:视觉不是技能的装饰,而是技能的结构本身。Visual Skill 不仅描述"做什么",还编码"在哪里做""怎么验证结果"。
三种视觉技能形式
针对不同任务需求,论文设计了三种互补的视觉支持形式:
静态先验:跨任务共享的空间参考
静态先验提供稳定的空间约定。比如一个网页应用的"提交按钮总在右下角"、"菜单栏固定在上边缘"。这些空间规律不随具体任务变化,可以被多个技能复用。
它解决的是静态协议歧义——当文本指令的空间描述不够精确时,静态先验提供一张"参考地图",让模型知道"在这个界面上,提交按钮通常长这样、通常在这样"。
动态先验:原位空间追踪
动态先验解决的是状态追踪问题。界面元素在操作过程中发生位置或外观变化时,动态先验实时更新视觉记忆。比如"点击展开后,菜单从顶部滑出,新选项出现在 Y=240 到 Y=400 的区域"。
文本记录这种变化会很啰嗦且容易歧义("菜单展开了"——展开多少?新选项在哪?)。动态先验直接保存变化前后的视觉状态,让模型能"看到"变化,而不是"读到"变化。
交错视觉技能:文本步骤与视觉证据绑定
这是最完整的技能形式。每个文本步骤都和对应的源视觉证据(截图、页面区域、操作瞬间的界面状态)绑定在一起。模型执行第 3 步时,不只是读到"点击提交按钮",还能看到当时提交按钮的确切位置和外观。
这种绑定的意义在于可追溯性。技能执行失败时,模型可以回溯到原始视觉证据,判断是按钮位置变了、样式变了、还是页面根本没加载出来。纯文本技能失败时,只能盲猜。
AutoVisualSkill:自动构建流水线
人工为每个任务构建 Visual Skill 成本太高。论文设计了 AutoVisualSkill 流水线,自动将智能体的任务轨迹转换为可复用的多模态技能。
流程大致是:
- 诊断文本瓶颈:分析哪些任务步骤因缺少视觉信息而产生歧义
- 生成视觉组件:从轨迹截图中提取关键视觉证据——元素位置、区域边界、状态变化前后对比
- 打包技能工件:将文本逻辑和视觉资产组合成标准的 Visual Skill 格式,包含多模态绑定协议
这意味着 Visual Skill 不是只有少数专家能构建的高端资产,而是可以从任何智能体执行轨迹中自动提取的标准产出。
实验:视觉技能确实比纯文本好用
论文在两类代表性任务上做了验证:
GUI 定位:需要精确点击或操作界面元素。Visual Skill 相比纯文本技能,定位准确率有 consistent 提升。原因很简单——文本说"点击右上角的设置图标",但不同分辨率下图标位置可能不同;Visual Skill 直接保存了该图标在原始截图中的 bounding box,模型可以基于视觉相似性在当前界面重新定位。
密集目标计数:需要精确计数图像中的大量目标。Visual Skill 通过保存"已计数区域"的视觉标记,避免了重复计数和遗漏。文本技能只能告诉模型"要数清楚",但给不了"哪些已经数过"的空间证据。
当任务需要空间对应、视觉证据、状态感知交互时,视觉技能 consistently 优于纯文本技能。
对 Agent 生态的启示
这篇论文的价值不只是提出一个新概念,而是指出了一个被忽视的基础设施问题:当前 Agent 的技能库全部是文本的,但越来越多的 Agent 任务是多模态的。
从 Web Agent 操作浏览器,到移动 Agent 操作手机界面,到机器人 Agent 操作物理环境——这些任务本质上都是视觉驱动的。技能系统不支持视觉,Agent 的能力天花板会被锁死在文本层面。
Visual Skill 的思路可以延伸得更广:
- 代码技能:不只是保存代码片段,还要保存代码在 IDE 中的位置、相关文件结构、调试时的变量状态截图
- 文档技能:不只是保存文字总结,还要保存原文档的段落截图、表格区域、图表位置
- 多模态技能:保存音频波形、视频关键帧、3D 模型视角等更多模态证据
局限与挑战
论文也提到了当前限制:
- 视觉存储成本:截图和区域标记比文本占用更多存储空间,技能库膨胀速度更快
- 视觉匹配的鲁棒性:界面主题变化、分辨率变化、动态内容变化会影响视觉先验的匹配准确率
- 技能泛化:在一个网站上训练的技能,迁移到结构不同的网站时,视觉先验可能失效
解决方向:视觉技能需要更智能的压缩、更鲁棒的匹配、更灵活的泛化机制。
参考
- 论文:Agent Skills Should Go Beyond Text: The Case for Visual Skills
- arXiv:https://arxiv.org/abs/2606.01414
- 作者:Binxiao Xu, Ruichuan An (北京大学), Bocheng Zou (威斯康星大学), Hang Hua (MIT-IBM Watson AI Lab)
#AI #多模态 #智能体 #VisualSkill #Agent #计算机视觉 #GUI #技能学习
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。