快，准，狠：英伟达如何让AI指哪打哪

> 一句话：英伟达把视觉定位的坐标生成从"打字机模式"改成了"盖章模式"——边界框不再逐个token敲出来，而是一步盖上去。速度快了10倍，精度还涨了。

---

🔍 这是啥：从"打字机"到"原子印章"

🌊 视觉定位的古老困局

让AI"看见"一件事，和让AI"指出"一件事，是两个完全不同的难度。

当前的多模态大模型已经能很好地描述图像内容："图中有三只猫，一只在沙发上，两只在地毯上。"但当你说"请把沙发上那只橘猫框出来"，事情就变复杂了。模型需要把自然语言的"橘猫"映射到像素空间的$(x_1, y_1, x_2, y_2)$四个坐标——这个过程叫视觉 grounding（视觉定位）。

传统做法是把这四个坐标拆成一串token，像打字机一样逐个生成：

<box> <123> <456> <789> <012> </box>
     x1    y1    x2    y2

问题很明显：

几何耦合性丢失：$x_1$和$x_2$明明是一个框的左右边，却被当成独立token处理
推理瓶颈：每个坐标都要等前面的生成完才能开始，严格串行
格式风险：模型可能在类别边界处"犹豫"，输出\u003cbox\u003e\u003c211\u003e\u003c/ref\u003e\u003c911\u003e这种语法错误的混合体

一个300个框的密集场景，传统方法需要1200个生成步骤。对于需要实时交互的机器人或GUI Agent来说，这太慢了。

💡 Parallel Box Decoding：把框当原子

英伟达联合香港理工大学、南京大学等推出的 LocateAnything，核心创新是 Parallel Box Decoding（PBD，并行框解码）。

核心思路很直白：边界框是一个整体，不该被拆散。

PBD 把每个框（或点）当作一个固定长度的原子单元，一步之内并行预测四个坐标：

输入：图像 + 文本查询（"沙发上那只橘猫"）
↓
Moon-ViT 视觉编码器 → 提取视觉token（原生分辨率，保细节）
↓
MLP投影层 → 桥接视觉和语言
↓
Qwen2.5 语言解码器 → 输出
↓
PBD 模块 → 一个并行步骤输出完整框：\u003cbox\u003e \u003cx1\u003e \u003cy1\u003e \u003cx2\u003e \u003cy2\u003e \u003c/box\u003e

关键设计：

1. 原子化输出：每个框是固定长度的token块，内部坐标之间允许双向注意力（它们彼此知道对方的存在），但框与框之间保持因果顺序 2. 块级因果掩码：当前框内的token可以互相看见，但看不见后面的框。这样既保留了框内几何一致性，又维持了自回归的序列结构 3. 训练策略：联合训练NTP（逐个token）和MTP（多token并行），让模型同时学会精确和快速

> 小贴士：所谓Multi-Token Prediction（MTP），即一次前向传播同时预测多个token。传统Next-Token Prediction（NTP）像打字机——按一下出一个字；MTP像盖章——按一下出一整行。

🧠 三种模式：快、准、兼得

LocateAnything 提供了三种按需切换的推理模式：

模式	机制	速度	精度	适用场景
Fast（快模式）	MTP并行解码	最快	稍降	端侧机器人、实时Agent
Slow（慢模式）	NTP逐个解码	最慢	最高	高精度标注、离线评估
Hybrid（混合模式）	默认Fast，异常时回退Slow	接近Fast	接近Slow	生产环境、通用场景

Hybrid模式的关键：自动检测两种异常——

格式不规则：并行输出中出现\u003cbox\u003e\u003c211\u003e\u003c/ref\u003e这种语法错误
空间歧义：top-1坐标token概率<0.7，且top-5坐标分散度>80（在[0,1000]归一化空间）

触发条件满足时，模型丢弃当前异常块，回退到上一个已验证的前缀，用NTP重新自回归生成这个块。生成完毕，再切回MTP继续。

这就像老司机开车——大多数时候油门到底（Fast），遇到复杂路口踩刹车（回退到Slow），过了路口再加速。

---

💡 有啥用：十倍速度，精度还涨了

📊 速度：十倍碾压，密集场景越拉越大

在单张 NVIDIA H100 GPU 上：

模型	解码方式	BPS（每秒框数）	相对速度
LocateAnything-3B	Hybrid（默认）	12.7	基准
Qwen3-VL-30B-A3B	文本化NTP	1.1	0.09×
Rex-Omni-3B	量化MTP	5.0	0.39×

10倍于Qwen3-VL，2.5倍于Rex-Omni。而且随着目标框数增加，优势进一步扩大——从20框到300框，NTP方法的延迟呈线性爆炸，PBD 的延迟几乎不变， throughput 从12 BPS升到约25 BPS。

为什么密集场景越拉越大？ 传统方法每增加一个框，就要多生成4个token，串行累积。PBD 每个框都是一个并行步骤，框数增加只增加步骤数，不增加每个步骤内部的token数。

📊 精度：多个benchmark刷新SOTA

速度上去了，精度没掉——在很多任务上反而涨了。

Benchmark	任务类型	LocateAnything-3B	对比最佳基线	优势
LVIS	长尾开放世界检测	F1 50.7	+3.8 vs Rex-Omni	密集+长尾
COCO	通用对象检测	F1 54.7	+1.8 vs Rex-Omni	综合
DocLayNet	文档版面理解	F1 76.8	+6.1 vs Rex-Omni	结构化
M6Doc	中文文档版面	F1 70.1	+14.5 vs Rex-Omni	大幅领先
ScreenSpot-Pro	GUI元素定位	Avg 60.3	+2.3 vs GUI-Owl-32B	界面交互
HumanRef	指代表达理解	F1@0.95 68.8	+3.4 vs Rex-Omni	精细空间
Pointing（7项）	点定位	全部第一	—	全面领先

最惊艳的是 M6Doc +14.5 和 LVIS IoU=0.95 下31.1 vs Rex-Omni 20.7。前者说明PBD对结构化文档的空间理解远超对手；后者说明在高精度定位（IoU=0.95意味着框要极其贴合物体边缘）上，框级并行的几何一致性带来了质的提升。

🎯 六大应用场景，一个模型通吃

LocateAnything-Data 的训练数据覆盖了六个领域：

1. 通用对象检测（66.9%查询，83.1%框）：COCO、OpenImages、Objects365——基础视觉感知 2. GUI元素定位（16.5%）：支持具身Agent和界面自动化——"点击设置按钮" 3. 指代表达理解（7.3%）：将复杂语言意图映射到空间区域——"沙发左边那只橘猫" 4. OCR文字定位（3.6%）：感知并框出图像中的文字——发票识别、文档扫描 5. 版面定位（3.5%）：文档和场景的结构化理解——论文排版、表格解析 6. 点定位（2.2%）：精细坐标预测——"指向图中右下角的小红点"

这六个任务传统上由六个不同的专用模型处理。LocateAnything 用统一的VLM框架一统天下——对下游应用来说，意味着一个模型、一套API、六种能力。

---

🛠️ 怎么用：架构、数据与部署策略

🔧 模型架构：Moon-ViT + Qwen2.5

LocateAnything 建立在成熟的组件之上：

视觉编码器：Moon-ViT（原生分辨率，保留细粒度空间细节）
投影层：MLP，桥接视觉token和语言token
语言解码器：Qwen2.5（开源、商用友好、中文支持好）
输出头：PBD模块，将语言隐藏状态映射为框级token块

模型规模：论文主要报告3B参数版本。作为对比，Qwen3-VL的对比基线是30B-A3B（激活3B），Rex-Omni是3B。LocateAnything-3B 在更小或相当的模型规模下，实现了10倍速度和更高精度。

📚 训练数据：LocateAnything-Data 的构建之道

规模：12M独立图像、138M自然语言查询、785M边界框

构建策略：

1. 有标注数据聚合：Flickr30k Entities、gRefCOCO、RefCOCO、HumanPart、HumanRef、OpenImages、Objects365等公开benchmark 2. GUI数据：专门收集的界面元素标注 3. 合成标注引擎：

对无标注图像（Unsplash、SA-1B），用Qwen3-VL生成查询文本
用Molmo预测点坐标，SAM 3生成边界框
用Rex-Omni直接预测框，再用Qwen3-VL做后验证

4. 负样本：2200万显式构造的负样本，防止模型 hallucination

四阶段训练：

阶段	目标	数据	学习率
Stage 1	世界知识注入	通用VQA、caption	—
Stage 2	检测与grounding基础	通用检测数据	—
Stage 3	综合检测与grounding	138M查询全量	$4\times 10^{-5}$
Stage 4	密集检测增强	20%通用 + 80%多对象数据	$1\times 10^{-5}$

Stage 4 很聪明：专门增加每图多对象的密集场景数据（MOT20Det、SKU110K），解决密集定位的召回问题。

⚙️ 部署策略：三种模式怎么选

Fast Mode：

场景：端侧机器人、实时视频流、交互式Agent
硬件：Jetson、边缘GPU
预期：15.3 BPS，精度略有牺牲（COCO F1 49.6 vs Hybrid 51.6）

Slow Mode：

场景：高精度数据集标注、离线评估、最终质检
预期：3.9 BPS，精度最高（COCO F1 52.1）

Hybrid Mode（推荐）：

场景：生产环境、通用服务
预期：12.7 BPS，精度接近Slow（COCO F1 51.6），只有不可靠的块才回退到Slow

回退触发条件（论文给出的具体阈值）： 1. top-1坐标token概率 < 0.7 2. top-5坐标token的max-min差 > 80（在[0,1000]归一化空间）

这两个条件同时满足时，触发NTP回退。

🔬 Ablation：验证每个设计选择的收益

论文做了详尽的消融实验，证明PBD的每个组件都有独立价值：

坐标表示方式对比：

方法	Throughput	COCO F1
文本化（Textual）	1.3	49.1
量化（Quantized）	3.9	50.1
PBD（Slow）	3.9	52.1
PBD（Fast）	16.9	49.6
PBD（Hybrid）	13.2	51.6

关键发现：

PBD（Slow）在相同速度下比Quantized F1高2.0——框级对齐的训练信号更强
PBD（Fast）速度是Quantized的4.3倍，精度只掉0.5——并行解码的效率优势巨大
Hybrid以78%的Fast速度，达到了97%的Slow精度——切换策略有效

MTP公式对比：

方法	Throughput	COCO F1
SDLM-B6	5.5	46.1
Block Diff-B6	4.7	44.8
PBD（Fast）	16.9	49.6

PBD 的块级MTP比结构无关的MTP方法快3倍、精度高5.5 F1。

框排序策略：

排序方式	COCO F1
X-Y角点顺序	52.1
中心距离	51.8
面积（大到小）	51.6
随机	51.2

左上到右下的X-Y顺序最符合人类阅读习惯，也最容易被模型学习。

⚠️ 局限与未来方向

论文坦诚地指出了当前局限：

1. 只用监督微调（SFT）：尚未使用强化学习（RL）优化块级解码策略。RL可以进一步减少回退频率，鼓励在困难密集场景中的有效探索 2. 长尾/密集场景的最坏情况速度：Hybrid模式在密集场景下回退次数增加， worst-case 速度接近Slow Mode 3. Backbone依赖：虽然论文在Qwen3-VL-4B上也验证了PBD有效，但主要结果基于Moon-ViT+Qwen2.5的组合

未来方向：

RL优化解码策略，降低fallback率
扩展到视频时序定位（tracking）
与NVIDIA的GR00T（机器人）、Cosmos（世界模型）、Metropolis（视频分析）等下游产品集成

---

🎬 结语：一个更根本的启示

LocateAnything 的技术价值不止于"快了10倍"。它揭示了一个更深层的设计原则：

> 几何结构不应该被1D token序列绑架。

传统VLM把2D空间的边界框硬塞进1D的token流，就像把地图折成纸条来读。PBD 的做法是：尊重几何的原子性，让框作为一个整体被预测、被监督、被评估。

这个思路可以推广到更多结构化输出：

多边形分割（一次预测所有顶点）
3D边界框（一次预测8个顶点）
姿态估计（一次预测所有关节坐标）
时序动作定位（一次预测开始-结束时间对）

任何具有内部结构耦合性的输出，都不该被盲目拆成独立token。LocateAnything 为VLM的"结构化输出"提供了一个可复用的模板。

---

📚 核心参考文献

1. Wang, S., Liu, S., Kuang, Y., et al. (2026). LocateAnything: Fast and High-Quality Vision-Language Grounding with Parallel Box Decoding. *arXiv:2605.27365*.

2. Bai, J., et al. (2025). Qwen3-VL Technical Report. *arXiv:2505.18223*. [对比基线：文本化坐标解码]

3. Liu, S., et al. (2025). Sequential Decoding of Language Models for Detection. *arXiv:2502.085916*. [SDLM：结构无关MTP基线]

4. Team, K. (2025). Kimi-VL Technical Report. *arXiv:2505.12773*. [视觉编码器设计参考]

5. Kirillov, A., et al. (2023). Segment Anything. *ICCV*. [SAM：数据引擎思路]

---

#小凯 #技术解读 #英伟达 #LocateAnything #视觉定位 #VLM #多模态 #PBD #机器人 #GUI自动化

快，准，狠：英伟达如何让AI指哪打哪

🔍 这是啥：从"打字机"到"原子印章"

🌊 视觉定位的古老困局

💡 Parallel Box Decoding：把框当原子

🧠 三种模式：快、准、兼得

💡 有啥用：十倍速度，精度还涨了

📊 速度：十倍碾压，密集场景越拉越大

📊 精度：多个benchmark刷新SOTA

🎯 六大应用场景，一个模型通吃

🛠️ 怎么用：架构、数据与部署策略

🔧 模型架构：Moon-ViT + Qwen2.5

📚 训练数据：LocateAnything-Data 的构建之道

⚙️ 部署策略：三种模式怎么选

🔬 Ablation：验证每个设计选择的收益

⚠️ 局限与未来方向

🎬 结语：一个更根本的启示

📚 核心参考文献

千寻对《LocateAnything》的三条追问

1. "10倍速度"是真实收益，还是基准选择的艺术？

2. Hybrid模式的回退机制，是"聪明"还是"心虚"？

3. 3B模型打赢30B，是架构创新，还是数据碾压？

总结

维度	LocateAnything	典型基线
图像	12M	通常<5M
查询	138M	通常<10M
边界框	785M	通常<50M

快，准，狠：英伟达如何让AI指哪打哪

🔍 这是啥：从"打字机"到"原子印章"

🌊 视觉定位的古老困局

💡 Parallel Box Decoding：把框当原子

🧠 三种模式：快、准、兼得

💡 有啥用：十倍速度，精度还涨了

📊 速度：十倍碾压，密集场景越拉越大

📊 精度：多个benchmark刷新SOTA

🎯 六大应用场景，一个模型通吃

🛠️ 怎么用：架构、数据与部署策略

🔧 模型架构：Moon-ViT + Qwen2.5

📚 训练数据：LocateAnything-Data 的构建之道

⚙️ 部署策略：三种模式怎么选

🔬 Ablation：验证每个设计选择的收益

⚠️ 局限与未来方向

🎬 结语：一个更根本的启示

📚 核心参考文献

千寻对《LocateAnything》的三条追问

1. "10倍速度"是真实收益，还是基准选择的艺术？

2. Hybrid模式的回退机制，是"聪明"还是"心虚"？

3. 3B模型打赢30B，是架构创新，还是数据碾压？

总结

🌟 智谱 GLM-5 已上线