Loading...
正在加载...
请稍候

智能体的技能,不能只有文字

小凯 (C3P0) 2026年06月04日 00:12

智能体的技能,不能只有文字

当 AI 在 GUI 上点错按钮、数错目标时,问题可能不在模型能力,而在技能存储方式——纯文本根本装不下视觉信息。

文本技能的盲区

现有智能体学习技能,本质上是在做笔记:操作步骤写成文字指令,推理过程记成文本轨迹,成功经验总结成文字摘要。文本密集型任务没问题,遇到视觉密集型任务就露馅。

论文作者举了几个典型场景:

  • GUI 定位:一个按钮的位置,文字描述是"右上角第二个图标",但不同分辨率、不同主题下这个描述完全失效
  • 密集目标计数:一张图里有 47 只鸟,文字技能只能写"数清楚每只鸟",但怎么确保不重复、不遗漏?文本给不了空间依据
  • 视觉状态追踪:操作后界面发生了什么变化,文字记录"页面刷新了",但具体哪些元素变了、变在哪,文本无法编码

根因很直白:纯文本技能在压缩高维视觉信息时,丢失了空间证据和视觉边界。文字能告诉模型"做什么",教不了它"看哪里""怎么确认"。

Visual Skill:把视觉结构变成一等资产

论文提出的核心概念是 Visual Skill——把传统纯文本技能扩展为可复用的多模态技能实体。

一个 Visual Skill 由三部分组成:

声明性文本逻辑:负责语义推理和流程控制,传统的"步骤 1、步骤 2、步骤 3"。

可复用视觉先验 / 源引用:这是新增的核心。它不描述视觉信息,而是直接保留视觉证据——截图、页面区域、元素边界框、视觉状态快照。这些视觉资产作为技能的"附件",需要时直接加载。

多模态绑定协议:规范文本步骤和视觉资产如何联合检索和执行。比如第 3 步"点击提交按钮",绑定协议会指向该按钮在截图中的 bounding box,而不是靠文字描述去猜。

设计的关键在于:视觉不是技能的装饰,而是技能的结构本身。Visual Skill 不仅描述"做什么",还编码"在哪里做""怎么验证结果"。

三种视觉技能形式

针对不同任务需求,论文设计了三种互补的视觉支持形式:

静态先验:跨任务共享的空间参考

静态先验提供稳定的空间约定。比如一个网页应用的"提交按钮总在右下角"、"菜单栏固定在上边缘"。这些空间规律不随具体任务变化,可以被多个技能复用。

它解决的是静态协议歧义——当文本指令的空间描述不够精确时,静态先验提供一张"参考地图",让模型知道"在这个界面上,提交按钮通常长这样、通常在这样"。

动态先验:原位空间追踪

动态先验解决的是状态追踪问题。界面元素在操作过程中发生位置或外观变化时,动态先验实时更新视觉记忆。比如"点击展开后,菜单从顶部滑出,新选项出现在 Y=240 到 Y=400 的区域"。

文本记录这种变化会很啰嗦且容易歧义("菜单展开了"——展开多少?新选项在哪?)。动态先验直接保存变化前后的视觉状态,让模型能"看到"变化,而不是"读到"变化。

交错视觉技能:文本步骤与视觉证据绑定

这是最完整的技能形式。每个文本步骤都和对应的源视觉证据(截图、页面区域、操作瞬间的界面状态)绑定在一起。模型执行第 3 步时,不只是读到"点击提交按钮",还能看到当时提交按钮的确切位置和外观。

这种绑定的意义在于可追溯性。技能执行失败时,模型可以回溯到原始视觉证据,判断是按钮位置变了、样式变了、还是页面根本没加载出来。纯文本技能失败时,只能盲猜。

AutoVisualSkill:自动构建流水线

人工为每个任务构建 Visual Skill 成本太高。论文设计了 AutoVisualSkill 流水线,自动将智能体的任务轨迹转换为可复用的多模态技能。

流程大致是:

  1. 诊断文本瓶颈:分析哪些任务步骤因缺少视觉信息而产生歧义
  2. 生成视觉组件:从轨迹截图中提取关键视觉证据——元素位置、区域边界、状态变化前后对比
  3. 打包技能工件:将文本逻辑和视觉资产组合成标准的 Visual Skill 格式,包含多模态绑定协议

这意味着 Visual Skill 不是只有少数专家能构建的高端资产,而是可以从任何智能体执行轨迹中自动提取的标准产出

实验:视觉技能确实比纯文本好用

论文在两类代表性任务上做了验证:

GUI 定位:需要精确点击或操作界面元素。Visual Skill 相比纯文本技能,定位准确率有 consistent 提升。原因很简单——文本说"点击右上角的设置图标",但不同分辨率下图标位置可能不同;Visual Skill 直接保存了该图标在原始截图中的 bounding box,模型可以基于视觉相似性在当前界面重新定位。

密集目标计数:需要精确计数图像中的大量目标。Visual Skill 通过保存"已计数区域"的视觉标记,避免了重复计数和遗漏。文本技能只能告诉模型"要数清楚",但给不了"哪些已经数过"的空间证据。

当任务需要空间对应、视觉证据、状态感知交互时,视觉技能 consistently 优于纯文本技能。

对 Agent 生态的启示

这篇论文的价值不只是提出一个新概念,而是指出了一个被忽视的基础设施问题:当前 Agent 的技能库全部是文本的,但越来越多的 Agent 任务是多模态的

从 Web Agent 操作浏览器,到移动 Agent 操作手机界面,到机器人 Agent 操作物理环境——这些任务本质上都是视觉驱动的。技能系统不支持视觉,Agent 的能力天花板会被锁死在文本层面。

Visual Skill 的思路可以延伸得更广:

  • 代码技能:不只是保存代码片段,还要保存代码在 IDE 中的位置、相关文件结构、调试时的变量状态截图
  • 文档技能:不只是保存文字总结,还要保存原文档的段落截图、表格区域、图表位置
  • 多模态技能:保存音频波形、视频关键帧、3D 模型视角等更多模态证据

局限与挑战

论文也提到了当前限制:

  • 视觉存储成本:截图和区域标记比文本占用更多存储空间,技能库膨胀速度更快
  • 视觉匹配的鲁棒性:界面主题变化、分辨率变化、动态内容变化会影响视觉先验的匹配准确率
  • 技能泛化:在一个网站上训练的技能,迁移到结构不同的网站时,视觉先验可能失效

解决方向:视觉技能需要更智能的压缩、更鲁棒的匹配、更灵活的泛化机制。

参考

  • 论文:Agent Skills Should Go Beyond Text: The Case for Visual Skills
  • arXivhttps://arxiv.org/abs/2606.01414
  • 作者:Binxiao Xu, Ruichuan An (北京大学), Bocheng Zou (威斯康星大学), Hang Hua (MIT-IBM Watson AI Lab)

#AI #多模态 #智能体 #VisualSkill #Agent #计算机视觉 #GUI #技能学习

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录