一句话:英伟达把视觉定位的坐标生成从"打字机模式"改成了"盖章模式"——边界框不再逐个token敲出来,而是一步盖上去。速度快了10倍,精度还涨了。
🔍 这是啥:从"打字机"到"原子印章"
🌊 视觉定位的古老困局
让AI"看见"一件事,和让AI"指出"一件事,是两个完全不同的难度。
当前的多模态大模型已经能很好地描述图像内容:"图中有三只猫,一只在沙发上,两只在地毯上。"但当你说"请把沙发上那只橘猫框出来",事情就变复杂了。模型需要把自然语言的"橘猫"映射到像素空间的\((x_1, y_1, x_2, y_2)\)四个坐标——这个过程叫视觉 grounding(视觉定位)。
传统做法是把这四个坐标拆成一串token,像打字机一样逐个生成:
<box> <123> <456> <789> <012> </box>
x1 y1 x2 y2
问题很明显:
- 几何耦合性丢失:\(x_1\)和\(x_2\)明明是一个框的左右边,却被当成独立token处理
- 推理瓶颈:每个坐标都要等前面的生成完才能开始,严格串行
- 格式风险:模型可能在类别边界处"犹豫",输出
\u003cbox\u003e\u003c211\u003e\u003c/ref\u003e\u003c911\u003e这种语法错误的混合体
一个300个框的密集场景,传统方法需要1200个生成步骤。对于需要实时交互的机器人或GUI Agent来说,这太慢了。
💡 Parallel Box Decoding:把框当原子
英伟达联合香港理工大学、南京大学等推出的 LocateAnything,核心创新是 Parallel Box Decoding(PBD,并行框解码)。
核心思路很直白:边界框是一个整体,不该被拆散。
PBD 把每个框(或点)当作一个固定长度的原子单元,一步之内并行预测四个坐标:
输入:图像 + 文本查询("沙发上那只橘猫")
↓
Moon-ViT 视觉编码器 → 提取视觉token(原生分辨率,保细节)
↓
MLP投影层 → 桥接视觉和语言
↓
Qwen2.5 语言解码器 → 输出
↓
PBD 模块 → 一个并行步骤输出完整框:\u003cbox\u003e \u003cx1\u003e \u003cy1\u003e \u003cx2\u003e \u003cy2\u003e \u003c/box\u003e
关键设计:
- 原子化输出:每个框是固定长度的token块,内部坐标之间允许双向注意力(它们彼此知道对方的存在),但框与框之间保持因果顺序
- 块级因果掩码:当前框内的token可以互相看见,但看不见后面的框。这样既保留了框内几何一致性,又维持了自回归的序列结构
- 训练策略:联合训练NTP(逐个token)和MTP(多token并行),让模型同时学会精确和快速
小贴士:所谓Multi-Token Prediction(MTP),即一次前向传播同时预测多个token。传统Next-Token Prediction(NTP)像打字机——按一下出一个字;MTP像盖章——按一下出一整行。
🧠 三种模式:快、准、兼得
LocateAnything 提供了三种按需切换的推理模式:
| 模式 | 机制 | 速度 | 精度 | 适用场景 |
|---|---|---|---|---|
| Fast(快模式) | MTP并行解码 | 最快 | 稍降 | 端侧机器人、实时Agent |
| Slow(慢模式) | NTP逐个解码 | 最慢 | 最高 | 高精度标注、离线评估 |
| Hybrid(混合模式) | 默认Fast,异常时回退Slow | 接近Fast | 接近Slow | 生产环境、通用场景 |
Hybrid模式的关键:自动检测两种异常——
- 格式不规则:并行输出中出现
\u003cbox\u003e\u003c211\u003e\u003c/ref\u003e这种语法错误 - 空间歧义:top-1坐标token概率<0.7,且top-5坐标分散度>80(在[0,1000]归一化空间)
触发条件满足时,模型丢弃当前异常块,回退到上一个已验证的前缀,用NTP重新自回归生成这个块。生成完毕,再切回MTP继续。
这就像老司机开车——大多数时候油门到底(Fast),遇到复杂路口踩刹车(回退到Slow),过了路口再加速。
💡 有啥用:十倍速度,精度还涨了
📊 速度:十倍碾压,密集场景越拉越大
在单张 NVIDIA H100 GPU 上:
| 模型 | 解码方式 | BPS(每秒框数) | 相对速度 |
|---|---|---|---|
| LocateAnything-3B | Hybrid(默认) | 12.7 | 基准 |
| Qwen3-VL-30B-A3B | 文本化NTP | 1.1 | 0.09× |
| Rex-Omni-3B | 量化MTP | 5.0 | 0.39× |
10倍于Qwen3-VL,2.5倍于Rex-Omni。而且随着目标框数增加,优势进一步扩大——从20框到300框,NTP方法的延迟呈线性爆炸,PBD 的延迟几乎不变, throughput 从12 BPS升到约25 BPS。
为什么密集场景越拉越大? 传统方法每增加一个框,就要多生成4个token,串行累积。PBD 每个框都是一个并行步骤,框数增加只增加步骤数,不增加每个步骤内部的token数。
📊 精度:多个benchmark刷新SOTA
速度上去了,精度没掉——在很多任务上反而涨了。
| Benchmark | 任务类型 | LocateAnything-3B | 对比最佳基线 | 优势 |
|---|---|---|---|---|
| LVIS | 长尾开放世界检测 | F1 50.7 | +3.8 vs Rex-Omni | 密集+长尾 |
| COCO | 通用对象检测 | F1 54.7 | +1.8 vs Rex-Omni | 综合 |
| DocLayNet | 文档版面理解 | F1 76.8 | +6.1 vs Rex-Omni | 结构化 |
| M6Doc | 中文文档版面 | F1 70.1 | +14.5 vs Rex-Omni | 大幅领先 |
| ScreenSpot-Pro | GUI元素定位 | Avg 60.3 | +2.3 vs GUI-Owl-32B | 界面交互 |
| HumanRef | 指代表达理解 | F1@0.95 68.8 | +3.4 vs Rex-Omni | 精细空间 |
| Pointing(7项) | 点定位 | 全部第一 | — | 全面领先 |
最惊艳的是 M6Doc +14.5 和 LVIS IoU=0.95 下31.1 vs Rex-Omni 20.7。前者说明PBD对结构化文档的空间理解远超对手;后者说明在高精度定位(IoU=0.95意味着框要极其贴合物体边缘)上,框级并行的几何一致性带来了质的提升。
🎯 六大应用场景,一个模型通吃
LocateAnything-Data 的训练数据覆盖了六个领域:
- 通用对象检测(66.9%查询,83.1%框):COCO、OpenImages、Objects365——基础视觉感知
- GUI元素定位(16.5%):支持具身Agent和界面自动化——"点击设置按钮"
- 指代表达理解(7.3%):将复杂语言意图映射到空间区域——"沙发左边那只橘猫"
- OCR文字定位(3.6%):感知并框出图像中的文字——发票识别、文档扫描
- 版面定位(3.5%):文档和场景的结构化理解——论文排版、表格解析
- 点定位(2.2%):精细坐标预测——"指向图中右下角的小红点"
这六个任务传统上由六个不同的专用模型处理。LocateAnything 用统一的VLM框架一统天下——对下游应用来说,意味着一个模型、一套API、六种能力。
🛠️ 怎么用:架构、数据与部署策略
🔧 模型架构:Moon-ViT + Qwen2.5
LocateAnything 建立在成熟的组件之上:
- 视觉编码器:Moon-ViT(原生分辨率,保留细粒度空间细节)
- 投影层:MLP,桥接视觉token和语言token
- 语言解码器:Qwen2.5(开源、商用友好、中文支持好)
- 输出头:PBD模块,将语言隐藏状态映射为框级token块
模型规模:论文主要报告3B参数版本。作为对比,Qwen3-VL的对比基线是30B-A3B(激活3B),Rex-Omni是3B。LocateAnything-3B 在更小或相当的模型规模下,实现了10倍速度和更高精度。
📚 训练数据:LocateAnything-Data 的构建之道
规模:12M独立图像、138M自然语言查询、785M边界框
构建策略:
- 有标注数据聚合:Flickr30k Entities、gRefCOCO、RefCOCO、HumanPart、HumanRef、OpenImages、Objects365等公开benchmark
- GUI数据:专门收集的界面元素标注
- 合成标注引擎:
- 对无标注图像(Unsplash、SA-1B),用Qwen3-VL生成查询文本
- 用Molmo预测点坐标,SAM 3生成边界框
- 用Rex-Omni直接预测框,再用Qwen3-VL做后验证
- 负样本:2200万显式构造的负样本,防止模型 hallucination
四阶段训练:
| 阶段 | 目标 | 数据 | 学习率 |
|---|---|---|---|
| Stage 1 | 世界知识注入 | 通用VQA、caption | — |
| Stage 2 | 检测与grounding基础 | 通用检测数据 | — |
| Stage 3 | 综合检测与grounding | 138M查询全量 | \(4\times 10^{-5}\) |
| Stage 4 | 密集检测增强 | 20%通用 + 80%多对象数据 | \(1\times 10^{-5}\) |
Stage 4 很聪明:专门增加每图多对象的密集场景数据(MOT20Det、SKU110K),解决密集定位的召回问题。
⚙️ 部署策略:三种模式怎么选
Fast Mode:
- 场景:端侧机器人、实时视频流、交互式Agent
- 硬件:Jetson、边缘GPU
- 预期:15.3 BPS,精度略有牺牲(COCO F1 49.6 vs Hybrid 51.6)
Slow Mode:
- 场景:高精度数据集标注、离线评估、最终质检
- 预期:3.9 BPS,精度最高(COCO F1 52.1)
Hybrid Mode(推荐):
- 场景:生产环境、通用服务
- 预期:12.7 BPS,精度接近Slow(COCO F1 51.6),只有不可靠的块才回退到Slow
回退触发条件(论文给出的具体阈值):
- top-1坐标token概率 < 0.7
- top-5坐标token的max-min差 > 80(在[0,1000]归一化空间)
这两个条件同时满足时,触发NTP回退。
🔬 Ablation:验证每个设计选择的收益
论文做了详尽的消融实验,证明PBD的每个组件都有独立价值:
坐标表示方式对比:
| 方法 | Throughput | COCO F1 |
|---|---|---|
| 文本化(Textual) | 1.3 | 49.1 |
| 量化(Quantized) | 3.9 | 50.1 |
| PBD(Slow) | 3.9 | 52.1 |
| PBD(Fast) | 16.9 | 49.6 |
| PBD(Hybrid) | 13.2 | 51.6 |
关键发现:
- PBD(Slow)在相同速度下比Quantized F1高2.0——框级对齐的训练信号更强
- PBD(Fast)速度是Quantized的4.3倍,精度只掉0.5——并行解码的效率优势巨大
- Hybrid以78%的Fast速度,达到了97%的Slow精度——切换策略有效
MTP公式对比:
| 方法 | Throughput | COCO F1 |
|---|---|---|
| SDLM-B6 | 5.5 | 46.1 |
| Block Diff-B6 | 4.7 | 44.8 |
| PBD(Fast) | 16.9 | 49.6 |
PBD 的块级MTP比结构无关的MTP方法快3倍、精度高5.5 F1。
框排序策略:
| 排序方式 | COCO F1 |
|---|---|
| X-Y角点顺序 | 52.1 |
| 中心距离 | 51.8 |
| 面积(大到小) | 51.6 |
| 随机 | 51.2 |
左上到右下的X-Y顺序最符合人类阅读习惯,也最容易被模型学习。
⚠️ 局限与未来方向
论文坦诚地指出了当前局限:
- 只用监督微调(SFT):尚未使用强化学习(RL)优化块级解码策略。RL可以进一步减少回退频率,鼓励在困难密集场景中的有效探索
- 长尾/密集场景的最坏情况速度:Hybrid模式在密集场景下回退次数增加, worst-case 速度接近Slow Mode
- Backbone依赖:虽然论文在Qwen3-VL-4B上也验证了PBD有效,但主要结果基于Moon-ViT+Qwen2.5的组合
未来方向:
- RL优化解码策略,降低fallback率
- 扩展到视频时序定位(tracking)
- 与NVIDIA的GR00T(机器人)、Cosmos(世界模型)、Metropolis(视频分析)等下游产品集成
🎬 结语:一个更根本的启示
LocateAnything 的技术价值不止于"快了10倍"。它揭示了一个更深层的设计原则:
几何结构不应该被1D token序列绑架。
传统VLM把2D空间的边界框硬塞进1D的token流,就像把地图折成纸条来读。PBD 的做法是:尊重几何的原子性,让框作为一个整体被预测、被监督、被评估。
这个思路可以推广到更多结构化输出:
- 多边形分割(一次预测所有顶点)
- 3D边界框(一次预测8个顶点)
- 姿态估计(一次预测所有关节坐标)
- 时序动作定位(一次预测开始-结束时间对)
任何具有内部结构耦合性的输出,都不该被盲目拆成独立token。LocateAnything 为VLM的"结构化输出"提供了一个可复用的模板。
📚 核心参考文献
-
Wang, S., Liu, S., Kuang, Y., et al. (2026). LocateAnything: Fast and High-Quality Vision-Language Grounding with Parallel Box Decoding. arXiv:2605.27365.
-
Bai, J., et al. (2025). Qwen3-VL Technical Report. arXiv:2505.18223. [对比基线:文本化坐标解码]
-
Liu, S., et al. (2025). Sequential Decoding of Language Models for Detection. arXiv:2502.085916. [SDLM:结构无关MTP基线]
-
Team, K. (2025). Kimi-VL Technical Report. arXiv:2505.12773. [视觉编码器设计参考]
-
Kirillov, A., et al. (2023). Segment Anything. ICCV. [SAM:数据引擎思路]
#小凯 #技术解读 #英伟达 #LocateAnything #视觉定位 #VLM #多模态 #PBD #机器人 #GUI自动化
讨论回复
1 条回复推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。