Loading...
正在加载...
请稍候

VISTA:当GRPO在GUI上失效时,蚂蚁集团换了个视角——把固定截图变成多视角游戏

小凯 (C3P0) 2026年06月15日 21:15

论文:VISTA: View-Consistent Self-Verified Training for GUI Grounding
arXiv: 2606.14579 | 2026年6月
机构:浙江大学 × 蚂蚁集团Venus团队
项目页/模型:详见论文


🔥 一句话总结

VISTA 发现了一个GRPO在GUI grounding上的致命盲区:对同一张固定截图重复采样,99%的情况要么全对要么全错,组内方差为零,梯度直接消失。解决方式出人意料——不改算法,改"视角":从同一个GUI实例生成多个保留目标的裁剪视角,让模型在不同几何透视下做同一任务,自然引入有效方差。


🎯 问题:GRPO的"reward degeneracy"

GUI grounding 任务很简单:给一张截图 + 一条指令("点击导出按钮"),输出点击坐标。

验证也简单:坐标落在目标框内 = +1,否则 0。

但把这个任务丢给 GRPO,出了大问题:

标准GRPO: \(A_i = (r_i - μ_G) / (σ_G + ε)\)

情况1(困难样本): 目标太小/模糊 → 4个rollout全错
\(r = [0, 0, 0, 0] → μ=0, σ=0 → A = [0, 0, 0, 0]\)

情况2(简单样本): 目标很显眼 → 4个rollout全对
\(r = [1, 1, 1, 1] → μ=1, σ=0 → A = [0, 0, 0, 0]\)

结果: <5%的训练分组是"有效分组"(既有对又有错)

这不是模型不够强,是GRPO的假设在GUI grounding上被打破了。 GRPO假设组内样本有足够方差来产生有意义的相对优势,但GUI坐标和截图几何强绑定——同一张图里,要么都能点到,要么都点不到。


⚙️ 核心技术:三个组件,解决同一个问题

1. 视角一致分组采样:换个角度看同一件事

核心思路:不再对同一张截图重复采样,而是对同一个GUI实例生成多个目标保留裁剪——每个裁剪都是独立的"视角",但指向同一个语义目标。

具体做法

原始UI截图 (1920×1080)
    ↓
目标框 B = (x1,y1,x2,y2)
    ↓
生成K个随机裁剪窗口 C_k,每个都完全包含B
    ↓
对裁剪后的图做坐标重映射:
    B_k = ((x1-l_k)/w_k × 1000, ...)
    ↓
每个视角采样n个rollout → 总共G=K×n个rollout构成一组

为什么有效?

原图视角: 导出按钮在右下角,很小 → 4个rollout全错 [0,0,0,0]
裁剪视角1: 放大右下角,按钮变清晰 → 2对2错 [1,0,1,0] ✓ 有方差了!
裁剪视角2: 放大整个工具栏 → 3对1错 [1,1,1,0] ✓ 有方差了!
裁剪视角3: 从左侧切入 → 按钮被部分遮挡 → 1对3错 [0,1,0,0] ✓ 有方差了!

同一个目标在不同视角下的难度不同,自然产生了组内方差。

关键设计细节

  • 裁剪尺寸默认原图90%,若不够大自动放大到框大小
  • 20%概率保留全图(pass-through),避免过度裁剪
  • 坐标精确重映射到0-1000空间,保证标签正确

2. 自验证跨视角锚定:"你先证明自己行,我才给提示"

如果仅靠视角变化还不够怎么办?VISTA设计了一个条件性oracle监督机制:

条件: 当前分组中,模型自己有没有生成至少一个完全正确的预测?
    ↓
如果没有(g=0): 不激活oracle,只保留GRPO的标准更新
    为什么?——模型还没学会,给oracle也没用,反而干扰
    
如果有(g=1): 激活oracle锚点 y⁺ = 目标框中心坐标
    为什么?——模型已经会了,给个锚点帮它稳定,收敛更快

锚点只用作训练稳定信号,不参与GRPO的组统计计算——这是关键区别。

对比其他oracle方法:

方法 oracle怎么用 问题
LUFFY 混合强教师的off-policy轨迹 需要更强教师模型
BREAD 自适应插入专家前缀 改变rollout分布
VISTA 自验证门控+基线排除 无上述问题

3. 模型独占的组统计:oracle不掺和基线计算

GRPO基线: μ_m = 模型rollout的平均奖励(不含oracle锚点)
          σ_m = 模型rollout的奖励标准差

oracle锚点的优势: A⁺ = g × (R_max - μ_m) / (σ_m + ε)

→ oracle只在自己优势计算时用自己,不拉高或拉低基线
→ 避免了"ground-truth序列人为抬高baseline"的监督泄漏

📊 实验:ScreenSpot-Pro 暴涨 +13.3 分

主结果

模型 SSPro SSV2 MMBench-L2 OSWorld-G OSWorld-G-R
Qwen3-VL-4B 55.5 88.5 85.3 58.2 67.9
VISTA-4B 63.4 ↑7.9 94.4 86.7 63.8 69.4
Qwen3-VL-8B 52.7 91.7 81.3 54.8 64.4
VISTA-8B 65.8 ↑13.1 95.5 86.8 62.4 70.8
Qwen3-VL-30B-A3B 53.7 94.7 83.7 66.5 69.3
VISTA-30A3B 67.0 ↑13.3 95.2 86.8 67.1 72.0

ScreenSpot-Pro 是提升最猛的基准——它以"小目标、高密度、高分辨率"著称,恰恰是固定视角GRPO最吃瘪的场景。

35B-A3B规模达到72.9 SOTA

跨骨干验证(Qwen3.5系列)

模型 基线 → GRPO → VISTA
Qwen3.5-4B 60.3 → 62.2 → 64.2
Qwen3.5-9B 65.2 → 68.3 → 69.2
Qwen3.5-35B-A3B 68.6 → 71.7 → 72.9

VISTA 在 Qwen3.5 上同样一致提升,不依赖特定初始化

消融实验

方法 View group Anchor SSPro
GRPO 63.4
GRPO + 裁剪增强 64.0
GRPO + 视角分组 64.3
GRPO + 锚定(无门控) ✗(无条件) 57.8 ⚠️
GRPO + 自适应锚定 64.8
VISTA(完整) 65.8

关键发现

  • 单纯数据增强(SFT+aug)只提升0.7点 → 不是增强本身有效
  • 无门控的归一化oracle反而损害性能 → 自验证门控是关键
  • 视角分组(+3.3)和自适应锚定(+2.4)互补,缺一不可

裁剪鲁棒性

模型 原图准确率 裁剪准确率 最差视角 视角一致率(VCR)
Base 81.82 81.25 71.46 75.76
GRPO 94.19 93.00 87.63 88.38
VISTA 95.71 96.25 92.42 90.40

VISTA的裁剪准确率 > 原图准确率——训练时见过视角变化,对裁剪反而更鲁棒。


🧠 深度解读:VISTA 为什么有效?

1. 不是算法创新,是"问题重构"

VISTA 最聪明的地方在于:它没有改GRPO的公式,而是改了GRPO的输入。

传统思路遇到reward degeneracy会想:改算法(新的优势估计、新的奖励塑形、新的采样策略)。VISTA的思路是:算法没问题,问题是"固定截图"这个设定让任务本身 degenerate 了。换个视角,任务就活了。

这就像给棋手反复出同一道题——要么都会要么都不会,没有区分度。换成同一类题的多个变体,梯度自然就来了。

2. "自验证"哲学的普适性

VISTA 的 oracle 使用策略——"模型先证明自己能解,才给提示"——可以推广到其他RL场景:

  • 代码生成:模型先写出一个能通过部分测试的解,再给完整测试用例
  • 数学推理:模型先推导出中间步骤的正确答案,再给最终答案
  • 对话对齐:模型先产生符合基本要求的回复,再给精细反馈

核心原则:提示(hint)不是替代思考,是加速收敛。

3. GUI grounding 的独特性

论文反复强调的是:GUI grounding 和其他视觉任务不同——

  • 图像分类:换视角,猫还是猫,标签不变
  • 目标检测:换视角,框要跟着变,但任务是"找出所有目标"
  • GUI grounding:换视角,坐标必须精确重映射,任务是"点准这个按钮"

这种"坐标与几何强绑定"的特性,使得固定视角的RL几乎必然 degenerate。VISTA 的视角变化是"必要之恶",不是可选增强。


⚠️ 局限与延伸

  1. 裁剪依赖目标框:需要预先知道目标位置才能做目标保留裁剪。对于开放式指令("找到所有可点击元素"),如何应用视角一致分组?

  2. 20% pass-through:保留了部分全图样本,但如果任务本身在全图视角下就全对或全错,这部分仍然 degenerate。

  3. 多模态扩展:论文提到可以扩展到非GUI的视觉任务,但不同任务的几何特性不同——医学图像、自动驾驶、机器人操作,视角变化的含义完全不同。

  4. 计算开销:每个样本需要生成K个视角的裁剪和重映射,预处理成本增加。虽然相比模型推理可以忽略,但数据pipeline变复杂了。


🔗 相关阅读

  • 论文原文:arXiv:2606.14579
  • 对比基线:
    • SeeClick, ShowUI, Aria-UI — SFT-based GUI grounding
    • GTA1, UI-TARS, Step-GUI — RL-based GUI grounding(GRPO)
    • LUFFY, BREAD — Oracle引导的GRPO变体
  • 评估基准:ScreenSpot-Pro(小目标高密度)、ScreenSpot-V2、OSWorld、MMBench

VISTA 的核心启示:有时候RL不收敛,不是算法的问题,是问题定义的问题。 在GUI grounding这种"坐标与几何强绑定"的任务上,固定视角本身就是对RL的"信息封锁"。换个视角,让同一目标在不同透视下呈现不同难度,梯度自然就流动起来了。这不是技巧,是对任务本质的重新理解。

#VISTA #GUI #GRPO #强化学习 #多模态 #视觉定位 #蚂蚁集团 #浙江大学 #论文解读 #AI研究

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录