> 论文:《LocateAnything: Fast and High-Quality Vision-Language Grounding with Parallel Box Decoding》 > 作者:Shihao Wang, Shilong Liu, Yuanguo Kuang, Xinyu Wei, Yangzhou Liu, Zhiqi Li, Yunze Man, Guo Chen, Andrew Tao, Guilin Liu, Jan Kautz, Lei Zhang, Zhiding Yu (NVIDIA 等) > 链接:https://arxiv.org/abs/2605.27365 > 核心成果:2.5× 解码速度提升,LVIS mean F1 +3.8%,138M 训练样本统一覆盖检测、 grounding、UI、文档、OCR
---
一、问题:VLMs 定位物体的"挤牙膏"困境
视觉语言模型(VLM)做目标检测和 grounding 时,主流做法是把 2D bounding box 强行序列化成 1D token 流:
方法一:文本数字
[1024, 512, 2048, 1536] → "1" "0" "2" "4" "5" "1" "2" "2" "0" "4" "8" "1" "5" "3" "6"
方法二:量化坐标
[x1] → [y1] → [x2] → [y2] (逐个 token 预测)
这两种方法有个共同问题:把一个高度耦合的几何结构拆成了松散的一维序列。
后果很严重:
- 推理瓶颈:每个坐标必须等前一个生成完才能开始,严格串行
- 结构不匹配:训练时 token 之间 largely independently,但 box 的 4 个坐标本质上是耦合的(x1,y1 决定左上角,x2,y2 决定右下角,宽高相互约束)
- 幻觉放大:token-by-token 的误差会传播,一个坐标错了,整个框就歪了
- 吞吐量低:在密集场景下,生成 300 个框需要 300×4=1200 个串行步骤
---
二、核心创新:Parallel Box Decoding (PBD)
LocateAnything 的核心洞察很简单:
> 既然 bounding box 是一个几何整体,为什么不把它当作原子单位一次性生成?
2.1 原子单位:Block
LocateAnything 定义了 4 种 block 类型,每种长度固定为 6:
| Block 类型 | 内容 | 长度 |
|---|---|---|
| Semantic | 语言描述(如"红色的汽车") | 6(超长的分多个 block) |
| Box | | 6 |
| Negative | 表示目标不存在 | 6 |
| End | 生成终止 | 6 |
[<box>, x1, y1, x2, y2, </box>]
这 6 个 token 在同一个前向传播中并行生成,不是先等 x1 再预测 y1。
2.2 三种推理模式
LocateAnything 提供灵活的推理策略,按需切换:
| 模式 | 机制 | 适用场景 | 吞吐量 |
|---|---|---|---|
| Fast | 纯 MTP,每个 box 并行生成 | 延迟敏感、机器人、嵌入式 | 16.9 BPS |
| Slow | 纯 NTP,逐个 token 生成 | 高精度标注、数据清洗 | 3.9 BPS |
| Hybrid | 默认 Fast,异常时 fallback 到 Slow | 生产环境、平衡速度与精度 | 12.7 BPS |
x1 y1 x2 y2 的结构(比如 后面跟着 )
2. 空间歧义:top-1 坐标的概率 < 0.7,且 top-5 坐标的 max-min 差 > 80(在 0-1000 归一化空间内)这相当于:"能用并行的就并行,发现不靠谱的再逐字确认"。
---
三、训练策略:双序列联合训练
3.1 核心挑战
直接并行训练会破坏 VLM 的因果推理能力。LocateAnything 的解决方案:一个输入,两种监督。
3.2 输入构造
x_all = [visual_tokens] + [query_tokens] + [NTP_sequence] + [MTP_sequence]
NTP_sequence:标准的逐 token 序列(保留因果能力)MTP_sequence:按 block 分块的序列(并行训练)
3.3 Attention Mask 设计
这是论文最精妙的工程细节:
Layer 1: Causal Attention(NTP 流 + 共享上下文)
→ 标准因果,只能看前面,不能看后面,也不能看 MTP 流
Layer 2: Block-Causal(MTP block 之间)
→ 不同 block 之间严格因果,当前 block 只能看前面的 block
Layer 3: Bidirectional Intra-Block(MTP block 内部)
→ 同一个 block 的 6 个 token 互相可见,双向 attention
三者的隔离:NTP 和 MTP 两个流不能互相看,防止数据泄露。但两者都能看共享的视觉和文本上下文。
3.4 损失函数
L = L_NTP + L_MTP
联合最小化两个序列的交叉熵。NTP 保留语言模型的因果推理,MTP 学习 box 级别的并行生成。
---
四、数据引擎:138M 样本的 LocateAnything-Data
4.1 规模
- 12M 唯一图像
- 138M 自然语言查询
- 785M 标注边界框
4.2 六大任务分布
| 任务 | 占比 | 说明 |
|---|---|---|
| 通用目标检测 | 66.9% | 基础能力,提供 83.1% 的 bbox 监督 |
| UI 元素 grounding | 16.5% | 支持具身智能和 GUI 导航 |
| 自然语言指代理解 | 7.3% | 复杂语言意图 → 空间区域 |
| 文本定位 | 3.6% | OCR 相关 |
| 文档/场景布局 | 3.5% | 结构化推理 |
| 点定位 | 2.2% | 细粒度预测 |
4.3 数据合成引擎
对于缺乏 grounding 标注的检测数据集(OpenImages、Objects365),LocateAnything 设计了一个自动合成引擎:
检测数据集(有 bbox)
↓
用类别标签 prompt Qwen3-VL → 生成详细查询(属性、空间关系、推理线索)
↓
用生成的查询 prompt Molmo → 预测候选点
↓
保留落在 gt bbox 内的点 → 作为可靠监督
对于无标注图像:
无标注图像
↓
Qwen3-VL 直接生成多样化查询
↓
Molmo 预测点 → SAM 3 生成 bbox
↓
Qwen3-VL 后验证
4.4 负样本构造
现有数据集几乎都是正样本,模型容易幻觉。LocateAnything 显式构造负样本:生成不存在的目标查询,用 Negative block 标记。这让模型学会"找不到就不说"。
---
五、实验结果:速度与精度双杀
5.1 速度对比
| 模型 | 吞吐量 (BPS) | 相对速度 |
|---|---|---|
| Qwen3-VL-4B | 1.1 | 1× |
| Rex-Omni-3B | 5.0 | 4.5× |
| LocateAnything-3B | 12.7 | 11.5× |
5.2 检测精度
| 模型 | LVIS mean F1 | COCO mean F1 |
|---|---|---|
| Rex-Omni-3B | 46.9 | 52.9 |
| LocateAnything-3B | 50.7 (+3.8%) | 54.7 (+1.8%) |
5.3 密集检测
| 模型 | Dense200 mean F1 | VisDrone mean F1 |
|---|---|---|
| Rex-Omni-3B | 58.3 | 35.8 |
| LocateAnything-3B | 58.7 | 39.9 (+4.1%) |
5.4 GUI Grounding (ScreenSpot-Pro)
| 模型 | 平均 F1 |
|---|---|
| GUI-Owl-32B | 58.0 |
| Qwen3-VL-30B-A3B | 53.7 |
| LocateAnything-3B | 60.3 |
5.5 文档与 OCR
| 模型 | DocLayNet mean F1 | M6Doc mean F1 | TotalText mean F1 |
|---|---|---|---|
| Rex-Omni-3B | 70.7 | 55.6 | 40.6 |
| LocateAnything-3B | 76.8 (+6.1%) | 70.1 (+14.5%) | 43.3 (+2.7%) |
5.6 指代理解 (HumanRef / RefCOCOg)
| 模型 | HumanRef mean F1 | RefCOCOg val mean F1 |
|---|---|---|
| Rex-Omni-3B | 79.9 | 73.6 |
| LocateAnything-3B | 78.7 | 76.7 (+3.1%) |
---
六、消融实验:验证每个设计
6.1 坐标表示对比
| 表示 | 吞吐量 | F1 |
|---|---|---|
| Textual (数字字符) | 1.3 | 49.1 |
| Quantized (量化坐标) | 3.9 | 50.1 |
| PBD (Slow) | 3.9 | 52.1 |
| PBD (Fast) | 16.9 | 49.6 |
| PBD (Hybrid) | 13.2 | 51.6 |
6.2 MTP 公式对比
| 方法 | 吞吐量 | F1 |
|---|---|---|
| SDLM-B4 | 5.2 | 46.5 |
| SDLM-B6 | 5.5 | 46.1 |
| SDLM-B8 | 6.7 | 45.8 |
| Block Diff-B6 | 4.7 | 44.8 |
| PBD (Fast) | 16.9 | 49.6 |
6.3 损失设计
| L_NTP | L_MTP | 模式 | F1 |
|---|---|---|---|
| ✓ | Slow | 50.1 | |
| ✓ | Fast | 47.2 | |
| ✓ | ✓ | Slow | 52.1 |
| ✓ | ✓ | Fast | 49.6 |
| ✓ | ✓ | Hybrid | 51.6 |
---
七、为什么 LocateAnything 重要
7.1 打破了"生成 = 串行"的惯性思维
多模态社区长期以来默认:生成 = 自回归 = 逐 token。LocateAnything 证明:结构化输出(bounding box、mask、轨迹)可以原子化并行生成。
这对整个领域有启发:
- 3D bounding box (x,y,z,w,h,d,θ) → 可以 7 个坐标并行
- 关键点检测(17 个人体关键点)→ 可以 17 个点并行
- 实例分割 mask → 可以 patch 级别的 mask token 并行
- 视频轨迹 → 可以帧级别的坐标并行
7.2 数据规模效应
138M 查询、785M bbox 是迄今最大规模的 grounding 训练数据。LocateAnything 证明:数据规模 + 正确的解码方式 = 质的飞跃。3B 模型在多项任务上超越 30B+ 模型。
7.3 对具身智能的意义
机器人、自动驾驶、AR 眼镜都需要实时视觉感知。LocateAnything 的 Fast Mode (16.9 BPS) 让这些应用成为可能。Hybrid Mode 进一步保证可靠性——"快的时候够快,不确定的时候能慢下来确认"。
7.4 工程实现亮点
论文两个工程细节值得学习: 1. Stream Packing:把变长序列打包成固定长度 batch,利用率 >95% 2. MagiAttention:支持 heterogeneous attention mask(因果 + block-因果 + 双向)的分布式训练框架
---
八、局限与未解问题
8.1 目前只有 SFT,没有 RL
作者明确说 RL 是下一步。PBD 的 block-level 策略可以通过 RL 进一步优化,减少 fallback 频率,提升 worst-case 速度。
8.2 仅限于 box 和 point
论文目前只验证了 bounding box 和 point。更复杂的结构(多边形 mask、3D cuboid、人体姿态)是否适用,需要进一步验证。
8.3 训练成本
4 阶段训练,256×H100,数万 steps。虽然比不上 LLM 预训练,但也不是小实验室能随便复现的。
---
九、技术定位
LocateAnything 在 VLM grounding 生态中的位置:
传统专用检测器(YOLO、DETR、DINO)
→ 快,但只能处理封闭集,不能理解自然语言
通用 VLM(Qwen-VL、InternVL)
→ 能理解语言,但 grounding 是逐 token 串行,慢且易错
LocateAnything
→ 统一了两者:通用语言能力 + 结构化并行定位
---
十、结论
LocateAnything 的核心贡献:把 bounding box 从"1D token 序列"提升为"原子并行单位",解决了 VLM 定位的三大痛点:
1. 速度:10× 吞吐量提升(Hybrid 模式 12.7 BPS vs Qwen3-VL 1.1 BPS) 2. 精度:box-aligned 监督让几何一致性更强,LVIS +3.8%、COCO +1.8% 3. 鲁棒性:Hybrid 模式在复杂场景自动 fallback 到 NTP,不牺牲可靠性
138M 训练样本的统一数据引擎 + 双序列联合训练 + 三种推理模式,构成了一个完整的"通用视觉定位"解决方案。
这不仅是论文,更像是一个宣言:多模态生成的未来,不是 longer sequences,而是 smarter structures。
---
参考来源
- Wang S, Liu S, Kuang Y, et al. LocateAnything: Fast and High-Quality Vision-Language Grounding with Parallel Box Decoding. arXiv:2605.27365, 2026.
- Bai K, et al. Qwen3-VL Technical Report. 2025.
- Jiang Y, et al. Rex-Omni: Unified Detection and Grounding in a VLM Framework. 2025.
- Chen J, et al. Pix2Seq: A Language Modeling Framework for Object Detection. ICLR, 2022.