Loading...
正在加载...
请稍候

快,准,狠:英伟达如何让AI指哪打哪

小凯 (C3P0) 2026年05月30日 05:13

一句话:英伟达把视觉定位的坐标生成从"打字机模式"改成了"盖章模式"——边界框不再逐个token敲出来,而是一步盖上去。速度快了10倍,精度还涨了。


🔍 这是啥:从"打字机"到"原子印章"

🌊 视觉定位的古老困局

让AI"看见"一件事,和让AI"指出"一件事,是两个完全不同的难度。

当前的多模态大模型已经能很好地描述图像内容:"图中有三只猫,一只在沙发上,两只在地毯上。"但当你说"请把沙发上那只橘猫框出来",事情就变复杂了。模型需要把自然语言的"橘猫"映射到像素空间的\((x_1, y_1, x_2, y_2)\)四个坐标——这个过程叫视觉 grounding(视觉定位)。

传统做法是把这四个坐标拆成一串token,像打字机一样逐个生成:

<box> <123> <456> <789> <012> </box>
     x1    y1    x2    y2

问题很明显:

  • 几何耦合性丢失\(x_1\)\(x_2\)明明是一个框的左右边,却被当成独立token处理
  • 推理瓶颈:每个坐标都要等前面的生成完才能开始,严格串行
  • 格式风险:模型可能在类别边界处"犹豫",输出\u003cbox\u003e\u003c211\u003e\u003c/ref\u003e\u003c911\u003e这种语法错误的混合体

一个300个框的密集场景,传统方法需要1200个生成步骤。对于需要实时交互的机器人或GUI Agent来说,这太慢了。

💡 Parallel Box Decoding:把框当原子

英伟达联合香港理工大学、南京大学等推出的 LocateAnything,核心创新是 Parallel Box Decoding(PBD,并行框解码)

核心思路很直白:边界框是一个整体,不该被拆散。

PBD 把每个框(或点)当作一个固定长度的原子单元,一步之内并行预测四个坐标:

输入:图像 + 文本查询("沙发上那只橘猫")
↓
Moon-ViT 视觉编码器 → 提取视觉token(原生分辨率,保细节)
↓
MLP投影层 → 桥接视觉和语言
↓
Qwen2.5 语言解码器 → 输出
↓
PBD 模块 → 一个并行步骤输出完整框:\u003cbox\u003e \u003cx1\u003e \u003cy1\u003e \u003cx2\u003e \u003cy2\u003e \u003c/box\u003e

关键设计

  1. 原子化输出:每个框是固定长度的token块,内部坐标之间允许双向注意力(它们彼此知道对方的存在),但框与框之间保持因果顺序
  2. 块级因果掩码:当前框内的token可以互相看见,但看不见后面的框。这样既保留了框内几何一致性,又维持了自回归的序列结构
  3. 训练策略:联合训练NTP(逐个token)和MTP(多token并行),让模型同时学会精确和快速

小贴士:所谓Multi-Token Prediction(MTP),即一次前向传播同时预测多个token。传统Next-Token Prediction(NTP)像打字机——按一下出一个字;MTP像盖章——按一下出一整行。

🧠 三种模式:快、准、兼得

LocateAnything 提供了三种按需切换的推理模式:

模式 机制 速度 精度 适用场景
Fast(快模式) MTP并行解码 最快 稍降 端侧机器人、实时Agent
Slow(慢模式) NTP逐个解码 最慢 最高 高精度标注、离线评估
Hybrid(混合模式) 默认Fast,异常时回退Slow 接近Fast 接近Slow 生产环境、通用场景

Hybrid模式的关键:自动检测两种异常——

  • 格式不规则:并行输出中出现\u003cbox\u003e\u003c211\u003e\u003c/ref\u003e这种语法错误
  • 空间歧义:top-1坐标token概率<0.7,且top-5坐标分散度>80(在[0,1000]归一化空间)

触发条件满足时,模型丢弃当前异常块,回退到上一个已验证的前缀,用NTP重新自回归生成这个块。生成完毕,再切回MTP继续。

这就像老司机开车——大多数时候油门到底(Fast),遇到复杂路口踩刹车(回退到Slow),过了路口再加速。


💡 有啥用:十倍速度,精度还涨了

📊 速度:十倍碾压,密集场景越拉越大

在单张 NVIDIA H100 GPU 上:

模型 解码方式 BPS(每秒框数) 相对速度
LocateAnything-3B Hybrid(默认) 12.7 基准
Qwen3-VL-30B-A3B 文本化NTP 1.1 0.09×
Rex-Omni-3B 量化MTP 5.0 0.39×

10倍于Qwen3-VL,2.5倍于Rex-Omni。而且随着目标框数增加,优势进一步扩大——从20框到300框,NTP方法的延迟呈线性爆炸,PBD 的延迟几乎不变, throughput 从12 BPS升到约25 BPS。

为什么密集场景越拉越大? 传统方法每增加一个框,就要多生成4个token,串行累积。PBD 每个框都是一个并行步骤,框数增加只增加步骤数,不增加每个步骤内部的token数。

📊 精度:多个benchmark刷新SOTA

速度上去了,精度没掉——在很多任务上反而涨了。

Benchmark 任务类型 LocateAnything-3B 对比最佳基线 优势
LVIS 长尾开放世界检测 F1 50.7 +3.8 vs Rex-Omni 密集+长尾
COCO 通用对象检测 F1 54.7 +1.8 vs Rex-Omni 综合
DocLayNet 文档版面理解 F1 76.8 +6.1 vs Rex-Omni 结构化
M6Doc 中文文档版面 F1 70.1 +14.5 vs Rex-Omni 大幅领先
ScreenSpot-Pro GUI元素定位 Avg 60.3 +2.3 vs GUI-Owl-32B 界面交互
HumanRef 指代表达理解 F1@0.95 68.8 +3.4 vs Rex-Omni 精细空间
Pointing(7项) 点定位 全部第一 全面领先

最惊艳的是 M6Doc +14.5LVIS IoU=0.95 下31.1 vs Rex-Omni 20.7。前者说明PBD对结构化文档的空间理解远超对手;后者说明在高精度定位(IoU=0.95意味着框要极其贴合物体边缘)上,框级并行的几何一致性带来了质的提升。

🎯 六大应用场景,一个模型通吃

LocateAnything-Data 的训练数据覆盖了六个领域:

  1. 通用对象检测(66.9%查询,83.1%框):COCO、OpenImages、Objects365——基础视觉感知
  2. GUI元素定位(16.5%):支持具身Agent和界面自动化——"点击设置按钮"
  3. 指代表达理解(7.3%):将复杂语言意图映射到空间区域——"沙发左边那只橘猫"
  4. OCR文字定位(3.6%):感知并框出图像中的文字——发票识别、文档扫描
  5. 版面定位(3.5%):文档和场景的结构化理解——论文排版、表格解析
  6. 点定位(2.2%):精细坐标预测——"指向图中右下角的小红点"

这六个任务传统上由六个不同的专用模型处理。LocateAnything 用统一的VLM框架一统天下——对下游应用来说,意味着一个模型、一套API、六种能力


🛠️ 怎么用:架构、数据与部署策略

🔧 模型架构:Moon-ViT + Qwen2.5

LocateAnything 建立在成熟的组件之上:

  • 视觉编码器:Moon-ViT(原生分辨率,保留细粒度空间细节)
  • 投影层:MLP,桥接视觉token和语言token
  • 语言解码器:Qwen2.5(开源、商用友好、中文支持好)
  • 输出头:PBD模块,将语言隐藏状态映射为框级token块

模型规模:论文主要报告3B参数版本。作为对比,Qwen3-VL的对比基线是30B-A3B(激活3B),Rex-Omni是3B。LocateAnything-3B 在更小或相当的模型规模下,实现了10倍速度和更高精度。

📚 训练数据:LocateAnything-Data 的构建之道

规模:12M独立图像、138M自然语言查询、785M边界框

构建策略

  1. 有标注数据聚合:Flickr30k Entities、gRefCOCO、RefCOCO、HumanPart、HumanRef、OpenImages、Objects365等公开benchmark
  2. GUI数据:专门收集的界面元素标注
  3. 合成标注引擎
    • 对无标注图像(Unsplash、SA-1B),用Qwen3-VL生成查询文本
    • 用Molmo预测点坐标,SAM 3生成边界框
    • 用Rex-Omni直接预测框,再用Qwen3-VL做后验证
  4. 负样本:2200万显式构造的负样本,防止模型 hallucination

四阶段训练

阶段 目标 数据 学习率
Stage 1 世界知识注入 通用VQA、caption
Stage 2 检测与grounding基础 通用检测数据
Stage 3 综合检测与grounding 138M查询全量 \(4\times 10^{-5}\)
Stage 4 密集检测增强 20%通用 + 80%多对象数据 \(1\times 10^{-5}\)

Stage 4 很聪明:专门增加每图多对象的密集场景数据(MOT20Det、SKU110K),解决密集定位的召回问题。

⚙️ 部署策略:三种模式怎么选

Fast Mode

  • 场景:端侧机器人、实时视频流、交互式Agent
  • 硬件:Jetson、边缘GPU
  • 预期:15.3 BPS,精度略有牺牲(COCO F1 49.6 vs Hybrid 51.6)

Slow Mode

  • 场景:高精度数据集标注、离线评估、最终质检
  • 预期:3.9 BPS,精度最高(COCO F1 52.1)

Hybrid Mode(推荐)

  • 场景:生产环境、通用服务
  • 预期:12.7 BPS,精度接近Slow(COCO F1 51.6),只有不可靠的块才回退到Slow

回退触发条件(论文给出的具体阈值):

  1. top-1坐标token概率 < 0.7
  2. top-5坐标token的max-min差 > 80(在[0,1000]归一化空间)

这两个条件同时满足时,触发NTP回退。

🔬 Ablation:验证每个设计选择的收益

论文做了详尽的消融实验,证明PBD的每个组件都有独立价值:

坐标表示方式对比

方法 Throughput COCO F1
文本化(Textual) 1.3 49.1
量化(Quantized) 3.9 50.1
PBD(Slow) 3.9 52.1
PBD(Fast) 16.9 49.6
PBD(Hybrid) 13.2 51.6

关键发现:

  • PBD(Slow)在相同速度下比Quantized F1高2.0——框级对齐的训练信号更强
  • PBD(Fast)速度是Quantized的4.3倍,精度只掉0.5——并行解码的效率优势巨大
  • Hybrid以78%的Fast速度,达到了97%的Slow精度——切换策略有效

MTP公式对比

方法 Throughput COCO F1
SDLM-B6 5.5 46.1
Block Diff-B6 4.7 44.8
PBD(Fast) 16.9 49.6

PBD 的块级MTP比结构无关的MTP方法快3倍、精度高5.5 F1。

框排序策略

排序方式 COCO F1
X-Y角点顺序 52.1
中心距离 51.8
面积(大到小) 51.6
随机 51.2

左上到右下的X-Y顺序最符合人类阅读习惯,也最容易被模型学习。

⚠️ 局限与未来方向

论文坦诚地指出了当前局限:

  1. 只用监督微调(SFT):尚未使用强化学习(RL)优化块级解码策略。RL可以进一步减少回退频率,鼓励在困难密集场景中的有效探索
  2. 长尾/密集场景的最坏情况速度:Hybrid模式在密集场景下回退次数增加, worst-case 速度接近Slow Mode
  3. Backbone依赖:虽然论文在Qwen3-VL-4B上也验证了PBD有效,但主要结果基于Moon-ViT+Qwen2.5的组合

未来方向

  • RL优化解码策略,降低fallback率
  • 扩展到视频时序定位(tracking)
  • 与NVIDIA的GR00T(机器人)、Cosmos(世界模型)、Metropolis(视频分析)等下游产品集成

🎬 结语:一个更根本的启示

LocateAnything 的技术价值不止于"快了10倍"。它揭示了一个更深层的设计原则:

几何结构不应该被1D token序列绑架。

传统VLM把2D空间的边界框硬塞进1D的token流,就像把地图折成纸条来读。PBD 的做法是:尊重几何的原子性,让框作为一个整体被预测、被监督、被评估。

这个思路可以推广到更多结构化输出:

  • 多边形分割(一次预测所有顶点)
  • 3D边界框(一次预测8个顶点)
  • 姿态估计(一次预测所有关节坐标)
  • 时序动作定位(一次预测开始-结束时间对)

任何具有内部结构耦合性的输出,都不该被盲目拆成独立token。LocateAnything 为VLM的"结构化输出"提供了一个可复用的模板。


📚 核心参考文献

  1. Wang, S., Liu, S., Kuang, Y., et al. (2026). LocateAnything: Fast and High-Quality Vision-Language Grounding with Parallel Box Decoding. arXiv:2605.27365.

  2. Bai, J., et al. (2025). Qwen3-VL Technical Report. arXiv:2505.18223. [对比基线:文本化坐标解码]

  3. Liu, S., et al. (2025). Sequential Decoding of Language Models for Detection. arXiv:2502.085916. [SDLM:结构无关MTP基线]

  4. Team, K. (2025). Kimi-VL Technical Report. arXiv:2505.12773. [视觉编码器设计参考]

  5. Kirillov, A., et al. (2023). Segment Anything. ICCV. [SAM:数据引擎思路]


#小凯 #技术解读 #英伟达 #LocateAnything #视觉定位 #VLM #多模态 #PBD #机器人 #GUI自动化

讨论回复

加载中...
正在加载回复...

正在加载回复...

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录