LocateAnything：并行框解码，让 VLM 定位不再"挤牙膏"

> 论文：《LocateAnything: Fast and High-Quality Vision-Language Grounding with Parallel Box Decoding》 > 作者：Shihao Wang, Shilong Liu, Yuanguo Kuang, Xinyu Wei, Yangzhou Liu, Zhiqi Li, Yunze Man, Guo Chen, Andrew Tao, Guilin Liu, Jan Kautz, Lei Zhang, Zhiding Yu (NVIDIA 等) > 链接：https://arxiv.org/abs/2605.27365 > 核心成果：2.5× 解码速度提升，LVIS mean F1 +3.8%，138M 训练样本统一覆盖检测、 grounding、UI、文档、OCR

---

一、问题：VLMs 定位物体的"挤牙膏"困境

视觉语言模型（VLM）做目标检测和 grounding 时，主流做法是把 2D bounding box 强行序列化成 1D token 流：

方法一：文本数字

[1024, 512, 2048, 1536] → "1" "0" "2" "4" "5" "1" "2" "2" "0" "4" "8" "1" "5" "3" "6"

方法二：量化坐标

[x1] → [y1] → [x2] → [y2]  （逐个 token 预测）

这两种方法有个共同问题：把一个高度耦合的几何结构拆成了松散的一维序列。

后果很严重：

推理瓶颈：每个坐标必须等前一个生成完才能开始，严格串行
结构不匹配：训练时 token 之间 largely independently，但 box 的 4 个坐标本质上是耦合的（x1,y1 决定左上角，x2,y2 决定右下角，宽高相互约束）
幻觉放大：token-by-token 的误差会传播，一个坐标错了，整个框就歪了
吞吐量低：在密集场景下，生成 300 个框需要 300×4=1200 个串行步骤

这就像用一根吸管喝一碗粥——能喝到，但效率极其低下。

---

二、核心创新：Parallel Box Decoding (PBD)

LocateAnything 的核心洞察很简单：

> 既然 bounding box 是一个几何整体，为什么不把它当作原子单位一次性生成？

2.1 原子单位：Block

LocateAnything 定义了 4 种 block 类型，每种长度固定为 6：

Block 类型	内容	长度
Semantic	语言描述（如"红色的汽车"）	6（超长的分多个 block）
Box	`x1 y1 x2 y2`	6
Negative	表示目标不存在	6
End	生成终止	6

一个 box block 的完整结构：

[<box>, x1, y1, x2, y2, </box>]

这 6 个 token 在同一个前向传播中并行生成，不是先等 x1 再预测 y1。

2.2 三种推理模式

LocateAnything 提供灵活的推理策略，按需切换：

模式	机制	适用场景	吞吐量
Fast	纯 MTP，每个 box 并行生成	延迟敏感、机器人、嵌入式	16.9 BPS
Slow	纯 NTP，逐个 token 生成	高精度标注、数据清洗	3.9 BPS
Hybrid	默认 Fast，异常时 fallback 到 Slow	生产环境、平衡速度与精度	12.7 BPS

Hybrid 模式的关键：检测何时 fallback。两个触发条件： 1. 格式异常：生成的 token 顺序不符合 x1 y1 x2 y2 的结构（比如后面跟着） 2. 空间歧义：top-1 坐标的概率 < 0.7，且 top-5 坐标的 max-min 差 > 80（在 0-1000 归一化空间内）

这相当于："能用并行的就并行，发现不靠谱的再逐字确认"。

---

三、训练策略：双序列联合训练

3.1 核心挑战

直接并行训练会破坏 VLM 的因果推理能力。LocateAnything 的解决方案：一个输入，两种监督。

3.2 输入构造

x_all = [visual_tokens] + [query_tokens] + [NTP_sequence] + [MTP_sequence]

NTP_sequence：标准的逐 token 序列（保留因果能力）
MTP_sequence：按 block 分块的序列（并行训练）

3.3 Attention Mask 设计

这是论文最精妙的工程细节：

Layer 1: Causal Attention（NTP 流 + 共享上下文）
  → 标准因果，只能看前面，不能看后面，也不能看 MTP 流

Layer 2: Block-Causal（MTP block 之间）
  → 不同 block 之间严格因果，当前 block 只能看前面的 block

Layer 3: Bidirectional Intra-Block（MTP block 内部）
  → 同一个 block 的 6 个 token 互相可见，双向 attention

三者的隔离：NTP 和 MTP 两个流不能互相看，防止数据泄露。但两者都能看共享的视觉和文本上下文。

3.4 损失函数

L = L_NTP + L_MTP

联合最小化两个序列的交叉熵。NTP 保留语言模型的因果推理，MTP 学习 box 级别的并行生成。

---

四、数据引擎：138M 样本的 LocateAnything-Data

4.1 规模

12M 唯一图像
138M 自然语言查询
785M 标注边界框

4.2 六大任务分布

任务	占比	说明
通用目标检测	66.9%	基础能力，提供 83.1% 的 bbox 监督
UI 元素 grounding	16.5%	支持具身智能和 GUI 导航
自然语言指代理解	7.3%	复杂语言意图 → 空间区域
文本定位	3.6%	OCR 相关
文档/场景布局	3.5%	结构化推理
点定位	2.2%	细粒度预测

4.3 数据合成引擎

对于缺乏 grounding 标注的检测数据集（OpenImages、Objects365），LocateAnything 设计了一个自动合成引擎：

检测数据集（有 bbox）
  ↓
用类别标签 prompt Qwen3-VL → 生成详细查询（属性、空间关系、推理线索）
  ↓
用生成的查询 prompt Molmo → 预测候选点
  ↓
保留落在 gt bbox 内的点 → 作为可靠监督

对于无标注图像：

无标注图像
  ↓
Qwen3-VL 直接生成多样化查询
  ↓
Molmo 预测点 → SAM 3 生成 bbox
  ↓
Qwen3-VL 后验证

4.4 负样本构造

现有数据集几乎都是正样本，模型容易幻觉。LocateAnything 显式构造负样本：生成不存在的目标查询，用 Negative block 标记。这让模型学会"找不到就不说"。

---

五、实验结果：速度与精度双杀

5.1 速度对比

模型	吞吐量 (BPS)	相对速度
Qwen3-VL-4B	1.1	1×
Rex-Omni-3B	5.0	4.5×
LocateAnything-3B	12.7	11.5×

在 H100 上，batch size=1，LocateAnything 比 Qwen3-VL 快 10 倍，比 Rex-Omni 快 2.5 倍。

5.2 检测精度

模型	LVIS mean F1	COCO mean F1
Rex-Omni-3B	46.9	52.9
LocateAnything-3B	50.7 (+3.8%)	54.7 (+1.8%)

5.3 密集检测

模型	Dense200 mean F1	VisDrone mean F1
Rex-Omni-3B	58.3	35.8
LocateAnything-3B	58.7	39.9 (+4.1%)

VisDrone 是无人机视角密集场景，LocateAnything 明显优势。

5.4 GUI Grounding (ScreenSpot-Pro)

模型	平均 F1
GUI-Owl-32B	58.0
Qwen3-VL-30B-A3B	53.7
LocateAnything-3B	60.3

3B 模型超越 32B 专家模型和 30B 通用模型。

5.5 文档与 OCR

模型	DocLayNet mean F1	M6Doc mean F1	TotalText mean F1
Rex-Omni-3B	70.7	55.6	40.6
LocateAnything-3B	76.8 (+6.1%)	70.1 (+14.5%)	43.3 (+2.7%)

M6Doc 提升 14.5% 极其显著。

5.6 指代理解 (HumanRef / RefCOCOg)

模型	HumanRef mean F1	RefCOCOg val mean F1
Rex-Omni-3B	79.9	73.6
LocateAnything-3B	78.7	76.7 (+3.1%)

RefCOCOg val 超越 Rex-Omni。

---

六、消融实验：验证每个设计

6.1 坐标表示对比

表示	吞吐量	F1
Textual (数字字符)	1.3	49.1
Quantized (量化坐标)	3.9	50.1
PBD (Slow)	3.9	52.1
PBD (Fast)	16.9	49.6
PBD (Hybrid)	13.2	51.6

结论：PBD 的 box-aligned 表示比 1D 序列化更好，即使同为 NTP (Slow) 也提升了 2.0 F1。

6.2 MTP 公式对比

方法	吞吐量	F1
SDLM-B4	5.2	46.5
SDLM-B6	5.5	46.1
SDLM-B8	6.7	45.8
Block Diff-B6	4.7	44.8
PBD (Fast)	16.9	49.6

结论：结构无关的 MTP（随机分块）反而有害，box-aligned 的 PBD 才是正确打开方式。

6.3 损失设计

L_NTP	L_MTP	模式	F1
✓		Slow	50.1
	✓	Fast	47.2
✓	✓	Slow	52.1
✓	✓	Fast	49.6
✓	✓	Hybrid	51.6

结论：联合训练缺一不可。纯 MTP 训练崩了（47.2），联合训练才是正解。

---

七、为什么 LocateAnything 重要

7.1 打破了"生成 = 串行"的惯性思维

多模态社区长期以来默认：生成 = 自回归 = 逐 token。LocateAnything 证明：结构化输出（bounding box、mask、轨迹）可以原子化并行生成。

这对整个领域有启发：

3D bounding box (x,y,z,w,h,d,θ) → 可以 7 个坐标并行
关键点检测（17 个人体关键点）→ 可以 17 个点并行
实例分割 mask → 可以 patch 级别的 mask token 并行
视频轨迹 → 可以帧级别的坐标并行

7.2 数据规模效应

138M 查询、785M bbox 是迄今最大规模的 grounding 训练数据。LocateAnything 证明：数据规模 + 正确的解码方式 = 质的飞跃。3B 模型在多项任务上超越 30B+ 模型。

7.3 对具身智能的意义

机器人、自动驾驶、AR 眼镜都需要实时视觉感知。LocateAnything 的 Fast Mode (16.9 BPS) 让这些应用成为可能。Hybrid Mode 进一步保证可靠性——"快的时候够快，不确定的时候能慢下来确认"。

7.4 工程实现亮点

论文两个工程细节值得学习： 1. Stream Packing：把变长序列打包成固定长度 batch，利用率 >95% 2. MagiAttention：支持 heterogeneous attention mask（因果 + block-因果 + 双向）的分布式训练框架

---

八、局限与未解问题

8.1 目前只有 SFT，没有 RL

作者明确说 RL 是下一步。PBD 的 block-level 策略可以通过 RL 进一步优化，减少 fallback 频率，提升 worst-case 速度。

8.2 仅限于 box 和 point

论文目前只验证了 bounding box 和 point。更复杂的结构（多边形 mask、3D cuboid、人体姿态）是否适用，需要进一步验证。

8.3 训练成本

4 阶段训练，256×H100，数万 steps。虽然比不上 LLM 预训练，但也不是小实验室能随便复现的。

---

九、技术定位

LocateAnything 在 VLM grounding 生态中的位置：

传统专用检测器（YOLO、DETR、DINO）
  → 快，但只能处理封闭集，不能理解自然语言

通用 VLM（Qwen-VL、InternVL）
  → 能理解语言，但 grounding 是逐 token 串行，慢且易错

LocateAnything
  → 统一了两者：通用语言能力 + 结构化并行定位

---

十、结论

LocateAnything 的核心贡献：把 bounding box 从"1D token 序列"提升为"原子并行单位"，解决了 VLM 定位的三大痛点：

1. 速度：10× 吞吐量提升（Hybrid 模式 12.7 BPS vs Qwen3-VL 1.1 BPS） 2. 精度：box-aligned 监督让几何一致性更强，LVIS +3.8%、COCO +1.8% 3. 鲁棒性：Hybrid 模式在复杂场景自动 fallback 到 NTP，不牺牲可靠性

138M 训练样本的统一数据引擎 + 双序列联合训练 + 三种推理模式，构成了一个完整的"通用视觉定位"解决方案。

这不仅是论文，更像是一个宣言：多模态生成的未来，不是 longer sequences，而是 smarter structures。

---

参考来源

Wang S, Liu S, Kuang Y, et al. LocateAnything: Fast and High-Quality Vision-Language Grounding with Parallel Box Decoding. arXiv:2605.27365, 2026.
Bai K, et al. Qwen3-VL Technical Report. 2025.
Jiang Y, et al. Rex-Omni: Unified Detection and Grounding in a VLM Framework. 2025.
Chen J, et al. Pix2Seq: A Language Modeling Framework for Object Detection. ICLR, 2022.

#LocateAnything #ParallelBoxDecoding #VLM #VisualGrounding #ObjectDetection #NVIDIA #MultiModal #AI #ComputerVision #GUI #OCR #DocumentUnderstanding