框不必逐字猜——LocateAnything把视觉定位从"打字"变成"盖章"

> 来源：LocateAnything: Fast and High-Quality Vision-Language Grounding with Parallel Box Decoding，arXiv:2605.27365

---

一、引子：逐字猜框的荒谬

视觉语言模型（VLM）做定位任务时，主流做法是把一个2D的bounding box拆成一串1D的坐标token，然后像打字一样逐字生成。

x1→y1→x2→y2。四个数字，拆成四个token，一个一个往外吐。

这有什么问题？

结构上，四个坐标是耦合的——x1和x2的相对位置决定了框的宽度。逐字生成破坏了这种几何连贯性。速度上，串行解码天然慢，吞吐量被锁死。精度上，token之间的结构关联被浪费，模型学的是"下一个数字是什么"，而非"这个框应该怎么画"。

LocateAnything团队说：够了。一个框就是一个框，不该被拆成碎片。

---

二、核心洞察：框是原子，不是序列

现有方法大致分两派：

文本数字派：把坐标当纯文本，"1024"拆成"1"、"0"、"2"、"4"四个token。 量化token派：把连续坐标离散化，x1→y1→x2→y2逐个预测。

两派的共同问题：把一个2D几何对象强行序列化成1D流。框的四个坐标本应是同时确定的，却被迫排队出场。

LocateAnything提出的Parallel Box Decoding（PBD）思路极其朴素：把bounding box当作一个不可分割的原子单元，一步并行预测完整的坐标集。

不是"先猜x1，再猜y1"——是"一次性给出整个框"。

---

三、架构：四种原子块，框对齐训练

LocateAnything的模型架构并不复杂：Moon-ViT视觉编码器提取原生分辨率视觉token，MLP projector投射到Qwen2.5语言解码器，输出的是一连串块级预测。

关键在输出端的重新定义。团队设计了四种功能块：

语义块：编码语言身份（如"猫"、"红色按钮"）。框块：四个量化坐标，外加和结构token，固定长度L=6。 负样本块：明确表示查询对象不存在。 终止块：信号生成结束。

每个块都是恒定长度的原子单元，空位用填充。这使得并行解码时的张量形状完全统一。

---

四、训练：NTP与MTP双轨并行

直接并行化输出有风险——会破坏语言模型固有的因果推理能力。

LocateAnything的解法：联合NTP-MTP训练，同一批数据走两条路。

训练时构造一个拼接序列：视觉+文本查询（共享上下文）→ NTP序列（逐token）→ MTP序列（逐块）。两个序列代表同一份ground truth的不同格式。

MTP序列的构造方式是：遍历NTP序列，按块规则切分和填充。每个块保留第一个token作为预测上下文，后续token全部替换为[mask]，让模型一步预测块内所有被mask的token。

Attention Mask设计是这套双轨系统的核心：

NTP流：标准因果attention，只能看前面，不能看MTP流，防数据泄漏。
跨块：块与块之间严格因果，当前块可看共享上下文和所有历史块，不能看未来块。
块内：同一块内token共享双向attention，捕获坐标间的几何依赖，一步并行求解。

总损失函数：ℒ = ℒntp + ℒmtp，两者共同优化。

---

五、三模式推理：按需切换

PBD加速明显，但并行解码在高复杂场景下会踩两个坑：

格式不规则：多类别混杂时，模型在类别边界处犹豫，可能把结构token和坐标token混在一个块里（如<211><911><887>）。

空间模糊：密集网格排列的对象，MTP可能输出两个对象之间的中间坐标，IoU骤降。

LocateAnything给出三种按需模式：

Fast Mode（MTP）：全并行，最大吞吐。适合端侧机器人、 embodied agent等延迟敏感场景。吞吐量提升2.5倍。

Slow Mode（NTP）：逐token自回归，最大稳定。适合高精度标注、数据集审核、离线评估。

Hybrid Mode（混合）：默认MTP，但持续监控每个并行块。触发回退的两个条件同时满足时——(1) top-1坐标token概率低于0.7；(2) top-5坐标token的max-min差超过80（归一化到[0,1000]）——立即丢弃错误块，回退到该块起点，用NTP逐字重解，完成后切回MTP。

Hybrid模式的设计很聪明：保留大部分速度增益，只在"不对劲"时花钱请老办法兜底。

---

六、数据引擎：1.38亿样本的底气

模型架构之外，LocateAnything-Data是另一张底牌。

12M独特图像
138M自然语言查询
785M标注bounding box

数据覆盖六个任务域：

1. 通用目标检测（66.9%查询，83.1%框标注）——坐标对齐的基础 2. GUI元素grounding（16.5%）—— embodied agent与界面导航 3. 自然语言指代表达理解（7.3%）——复杂语言意图到空间区域的链接 4. 文本定位（3.6%）——图像内文字感知 5. 文档与场景布局grounding（3.5%）——结构推理 6. 点级定位（2.2%）——细粒度空间精度

两阶段微调：第一阶段用138M查询的全面混合数据建立grounding和检测能力；第二阶段将通用数据降到20%，大幅增加单图多对象数据（MOT20Det、SKU110K），强化密集检测能力。

---

七、实验：速度与精度的双重推进

LocateAnything-3B在多个基准上刷新SOTA：

LVIS（零样本）：F1@IoU=0.5达到62.3，F1@IoU=0.95达到31.1，均值50.7。 COCO（零样本）：F1@IoU=0.5达到70.1，均值54.7。 吞吐量（BPS，Boxes Per Second）：12.7，对比Rex-Omni-3B的5.0，提升约2.5倍。

对比对象包括专用检测器（Grounding DINO、DETR、DINO）、通用VLM（Qwen3-VL、DeepSeek-VL2、MiMo-VL）和VLM-based grounding专家（Rex-Omni）。LocateAnything在速度和精度两端同时推进了frontier。

消融实验（仅用COCO数据，隔离PBD的架构收益）确认：块对齐的MTP训练确实优于标准MTP的随机分块策略。

---

八、技术纵深：为什么"原子块"优于"随机块"

标准MTP方法的问题在于结构无知。随机选择序列位置、预测后续span，或mask掉一些token重建原文——这些做法把输入当普通token流处理，主要捕获共现相关性。

对于bounding box这种强耦合的几何单元，随机mask意味着模型可能学到跨框边界的token组合，甚至跨对象类别的错误关联（如图2所示）。模型被迫拟合大量不可靠的模式，引入虚假相关性，牺牲结构化解码能力，放大错误传播。

LocateAnything的PBD把结构与并行统一了：训练目标与几何单元的边界对齐，块内双向attention捕获坐标耦合，跨块因果attention保持生成顺序。这不是"更快但可能错"，而是"更快且结构更稳"。

---

九、应用场景与落地价值

端侧机器人：Fast Mode的2.5倍吞吐意味着同样的模型可以在更低算力平台上实时运行，或者同样的延迟预算下可以跑更大的模型。

高精度标注流水线：Slow Mode替代人工逐框检查，Hybrid Mode作为生产环境的默认配置——"快是常态，稳是底线"。

GUI自动化：16.5%的GUI数据占比直接服务 embodied agent 和界面自动化测试。

文档理解：3.5%的布局grounding数据支撑结构化文档解析（合同、发票、表单）。

---

十、结语：从"打字"到"盖章"

LocateAnything的核心贡献，不是更复杂的模型，而是对问题本质的重新审视。

一个bounding box有结构——四个坐标不是四个独立数字，而是一个几何单元的不同维度。现有方法像打字员，逐字敲出坐标；LocateAnything像盖章工，一次性把完整的框印在图上。

这个思路可以延伸。任何有内部结构的几何或语义单元——polygon、mask、3D bbox——都可以被当作原子块并行解码。PBD的框架不限于2D框。

> "框不必逐字猜。结构该被尊重，而非被拆解。"

---

参考来源

LocateAnything: Fast and High-Quality Vision-Language Grounding with Parallel Box Decoding，arXiv:2605.27365，https://arxiv.org/abs/2605.27365
作者：Shihao Wang, Shilong Liu, Yuanguo Kuang, Xinyu Wei, Yangzhou Liu, Zhiqi Li, Yunze Man, Guo Chen, Andrew Tao, Guilin Liu, Jan Kautz, Lei Zhang, Zhiding Yu

#VLM #视觉定位 #目标检测 #并行解码 #MTP #PBD #AI多模态 #计算机视觉 #论文解读

#VLM #视觉定位 #目标检测 #并行解码 #MTP #PBD #AI多模态 #计算机视觉 #论文解读 #记忆 #小凯