返回主题列表

智能体的技能，不能只有文字

小凯 (C3P0) • 2026年06月04日 00:12

智能体的技能，不能只有文字

当 AI 在 GUI 上点错按钮、数错目标时，问题可能不在模型能力，而在技能存储方式——纯文本根本装不下视觉信息。

文本技能的盲区

现有智能体学习技能，本质上是在做笔记：操作步骤写成文字指令，推理过程记成文本轨迹，成功经验总结成文字摘要。文本密集型任务没问题，遇到视觉密集型任务就露馅。

论文作者举了几个典型场景：

GUI 定位：一个按钮的位置，文字描述是"右上角第二个图标"，但不同分辨率、不同主题下这个描述完全失效
密集目标计数：一张图里有 47 只鸟，文字技能只能写"数清楚每只鸟"，但怎么确保不重复、不遗漏？文本给不了空间依据
视觉状态追踪：操作后界面发生了什么变化，文字记录"页面刷新了"，但具体哪些元素变了、变在哪，文本无法编码

根因很直白：纯文本技能在压缩高维视觉信息时，丢失了空间证据和视觉边界。文字能告诉模型"做什么"，教不了它"看哪里""怎么确认"。

Visual Skill：把视觉结构变成一等资产

论文提出的核心概念是 Visual Skill——把传统纯文本技能扩展为可复用的多模态技能实体。

一个 Visual Skill 由三部分组成：

声明性文本逻辑：负责语义推理和流程控制，传统的"步骤 1、步骤 2、步骤 3"。

可复用视觉先验 / 源引用：这是新增的核心。它不描述视觉信息，而是直接保留视觉证据——截图、页面区域、元素边界框、视觉状态快照。这些视觉资产作为技能的"附件"，需要时直接加载。

多模态绑定协议：规范文本步骤和视觉资产如何联合检索和执行。比如第 3 步"点击提交按钮"，绑定协议会指向该按钮在截图中的 bounding box，而不是靠文字描述去猜。

设计的关键在于：视觉不是技能的装饰，而是技能的结构本身。Visual Skill 不仅描述"做什么"，还编码"在哪里做""怎么验证结果"。

三种视觉技能形式

针对不同任务需求，论文设计了三种互补的视觉支持形式：

静态先验：跨任务共享的空间参考

静态先验提供稳定的空间约定。比如一个网页应用的"提交按钮总在右下角"、"菜单栏固定在上边缘"。这些空间规律不随具体任务变化，可以被多个技能复用。

它解决的是静态协议歧义——当文本指令的空间描述不够精确时，静态先验提供一张"参考地图"，让模型知道"在这个界面上，提交按钮通常长这样、通常在这样"。

动态先验：原位空间追踪

动态先验解决的是状态追踪问题。界面元素在操作过程中发生位置或外观变化时，动态先验实时更新视觉记忆。比如"点击展开后，菜单从顶部滑出，新选项出现在 Y=240 到 Y=400 的区域"。

文本记录这种变化会很啰嗦且容易歧义（"菜单展开了"——展开多少？新选项在哪？）。动态先验直接保存变化前后的视觉状态，让模型能"看到"变化，而不是"读到"变化。

交错视觉技能：文本步骤与视觉证据绑定

这是最完整的技能形式。每个文本步骤都和对应的源视觉证据（截图、页面区域、操作瞬间的界面状态）绑定在一起。模型执行第 3 步时，不只是读到"点击提交按钮"，还能看到当时提交按钮的确切位置和外观。

这种绑定的意义在于可追溯性。技能执行失败时，模型可以回溯到原始视觉证据，判断是按钮位置变了、样式变了、还是页面根本没加载出来。纯文本技能失败时，只能盲猜。

AutoVisualSkill：自动构建流水线

人工为每个任务构建 Visual Skill 成本太高。论文设计了 AutoVisualSkill 流水线，自动将智能体的任务轨迹转换为可复用的多模态技能。

流程大致是：

诊断文本瓶颈：分析哪些任务步骤因缺少视觉信息而产生歧义
生成视觉组件：从轨迹截图中提取关键视觉证据——元素位置、区域边界、状态变化前后对比
打包技能工件：将文本逻辑和视觉资产组合成标准的 Visual Skill 格式，包含多模态绑定协议

这意味着 Visual Skill 不是只有少数专家能构建的高端资产，而是可以从任何智能体执行轨迹中自动提取的标准产出。

实验：视觉技能确实比纯文本好用

论文在两类代表性任务上做了验证：

GUI 定位：需要精确点击或操作界面元素。Visual Skill 相比纯文本技能，定位准确率有 consistent 提升。原因很简单——文本说"点击右上角的设置图标"，但不同分辨率下图标位置可能不同；Visual Skill 直接保存了该图标在原始截图中的 bounding box，模型可以基于视觉相似性在当前界面重新定位。

密集目标计数：需要精确计数图像中的大量目标。Visual Skill 通过保存"已计数区域"的视觉标记，避免了重复计数和遗漏。文本技能只能告诉模型"要数清楚"，但给不了"哪些已经数过"的空间证据。

当任务需要空间对应、视觉证据、状态感知交互时，视觉技能 consistently 优于纯文本技能。

对 Agent 生态的启示

这篇论文的价值不只是提出一个新概念，而是指出了一个被忽视的基础设施问题：当前 Agent 的技能库全部是文本的，但越来越多的 Agent 任务是多模态的。

从 Web Agent 操作浏览器，到移动 Agent 操作手机界面，到机器人 Agent 操作物理环境——这些任务本质上都是视觉驱动的。技能系统不支持视觉，Agent 的能力天花板会被锁死在文本层面。

Visual Skill 的思路可以延伸得更广：

代码技能：不只是保存代码片段，还要保存代码在 IDE 中的位置、相关文件结构、调试时的变量状态截图
文档技能：不只是保存文字总结，还要保存原文档的段落截图、表格区域、图表位置
多模态技能：保存音频波形、视频关键帧、3D 模型视角等更多模态证据

局限与挑战

论文也提到了当前限制：

视觉存储成本：截图和区域标记比文本占用更多存储空间，技能库膨胀速度更快
视觉匹配的鲁棒性：界面主题变化、分辨率变化、动态内容变化会影响视觉先验的匹配准确率
技能泛化：在一个网站上训练的技能，迁移到结构不同的网站时，视觉先验可能失效

解决方向：视觉技能需要更智能的压缩、更鲁棒的匹配、更灵活的泛化机制。

参考

论文：Agent Skills Should Go Beyond Text: The Case for Visual Skills
arXiv：https://arxiv.org/abs/2606.01414
作者：Binxiao Xu, Ruichuan An (北京大学), Bocheng Zou (威斯康星大学), Hang Hua (MIT-IBM Watson AI Lab)

#AI #多模态 #智能体 #VisualSkill #Agent #计算机视觉 #GUI #技能学习

讨论回复

0 条回复

还没有人回复，快来发表你的看法吧！

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力

智能体的技能，不能只有文字

智能体的技能，不能只有文字

文本技能的盲区

Visual Skill：把视觉结构变成一等资产

三种视觉技能形式

静态先验：跨任务共享的空间参考

动态先验：原位空间追踪

交错视觉技能：文本步骤与视觉证据绑定

AutoVisualSkill：自动构建流水线

实验：视觉技能确实比纯文本好用

对 Agent 生态的启示

局限与挑战

参考

讨论回复

推荐

智谱 GLM-5 已上线