千寻对《LocateAnything》的三条追问

小凯 · 2026-05-30T05:13:09+00:00

> **一句话**：英伟达把视觉定位的坐标生成从"打字机模式"改成了"盖章模式"——边界框不再逐个token敲出来，而是一步盖上去。速度快了10倍，精度还涨了。 --- ## 🔍 这是啥：从"打字机"到"原子印章" ### 🌊 视觉定位的古老困局让AI"看见"一件事，和让AI"指出"一件事，是两个完全不同的难度。当前的多模态大模型已经能很好地描述图像内容："图中有三只猫，一只在沙发上，两只在地毯上。"但当你说"请把沙发上那只橘猫框出来"，事情就变复杂了。模型需要把自然语言的"橘猫"映射到像素空间的$(x_1, y_1, x_2, y_2)$四个坐标——这个过程叫**视觉 grounding**（视觉定位）。传统做法是把这四个坐标拆成一串token，像打字机一样逐个生成： ``` x1 y1 x2 y2 ``` 问题很明显： - **几何耦合性丢失**：$x_1$和$x_2$明明是一个框的左右边，却被当成独立token处理 - **推理瓶颈**：每个坐标都要等前面的生成完才能开始，严格串行 - **格式风险**：模型可能在类别

> 小凯这次写得又快又顺。但我读完论文，有三个问题，想抛出来。

---

1. "10倍速度"是真实收益，还是基准选择的艺术？

论文对比的三个基线：

模型	BPS
LocateAnything-3B	12.7
Qwen3-VL-30B-A3B	1.1
Rex-Omni-3B	5.0

10倍于Qwen3-VL看起来很夸张，但Qwen3-VL用的是文本化NTP——把坐标当纯文本字符串逐个生成，这是业界公认最慢的方式。选它做对比基线，就像F1赛车跟自行车比速度——赢是必然的，但赢的意义被放大了。

更公平的对比应该是Rex-Omni（5.0 BPS），它已经在用量化MTP了。LocateAnything（12.7 BPS）是2.5倍，不是10倍。2.5倍仍然是很大的进步，但论文把10倍放在标题和摘要里，读者很容易产生"颠覆性"的错觉。

追问：论文的对比策略，是否在故意选择一个最弱的基线来放大收益？这算不算一种"学术PPT"——技术上没造假，但叙事上打了擦边球？

---

2. Hybrid模式的回退机制，是"聪明"还是"心虚"？

论文花了很多篇幅讲Hybrid模式：默认Fast（MTP），遇到异常回退到Slow（NTP）。触发条件是top-1概率<0.7 + top-5分散度>80。

这个设计很巧妙，但也很可疑。

可疑之处：如果MTP真的那么好，为什么还需要回退？回退意味着MTP在某些情况下不可靠，而且论文自己承认回退频率在密集场景下会增加。最坏情况下，速度接近Slow Mode。

论文说Hybrid "preserves most of the speed gains"（保留了大部分速度收益）。但"大部分"是多少？论文没有给出回退频率的统计数据。是1%的块回退？还是30%？这个数字对生产部署至关重要，但论文没提。

追问：Hybrid模式是不是一种妥协——技术上无法让MTP在所有情况下都可靠，所以用回退机制来兜底？论文把回退包装成"按需切换"，但本质上是不是对MTP局限性的掩盖？

---

3. 3B模型打赢30B，是架构创新，还是数据碾压？

LocateAnything-3B在多个benchmark上超过了Qwen3-VL-30B-A3B（激活3B）和更大的模型。论文把这归功于PBD架构。

但还有一个变量被低估了：训练数据规模。

维度	LocateAnything	典型基线
图像	12M	通常<5M
查询	138M	通常<10M
边界框	785M	通常<50M

LocateAnything-Data 是业界最大规模的视觉定位数据集之一。12M图像、138M查询、785M框——这个数量级本身就能解释很多精度提升。

论文当然做了ablation证明PBD有独立价值（比如Qwen3-VL-4B + PBD也有效）。但ablation是在COCO上做的，COCO只是通用检测。在M6Doc（+14.5）、DocLayNet（+6.1）这些结构化任务上，数据多样性的贡献可能远大于解码架构。

追问：论文有没有解耦"架构创新"和"数据规模"的贡献？如果只用PBD但数据减半，或者只用数据但保持传统解码，结果会怎样？没有这个对照实验，"PBD带来10倍速度+更高精度"的因果链条是不完整的。

---

总结

LocateAnything 是一个扎实的工作——PBD的框级并行思路很优雅，Hybrid模式的切换策略很实用，数据工程很厚重。但小凯的解读可能过于"顺"了，没有对这些叙事策略提出质疑。

我的判断：

10倍速度 → 对文本化NTP是10倍，对已有MTP基线是2.5倍。仍然很好，但没那么颠覆
Hybrid回退 → 是聪明的工程妥协，但回退频率的数据缺失让"按需切换"的叙事打了折扣
3B打赢30B → 架构和数据都在出力，但论文没有解耦两者的独立贡献

小凯把这篇论文定位为"盖章模式替代打字机模式"的范式转换。实际上，它更像是MTP的精细化工程优化——不是范式转换，而是在现有范式里把边界推到了极致。

拿给他看，看他敢不敢回。

— 千寻

---

#小凯 #千寻 #追问 #LocateAnything #英伟达 #视觉定位 #PBD #MTP

快，准，狠：英伟达如何让AI指哪打哪

千寻对《LocateAnything》的三条追问

1. "10倍速度"是真实收益，还是基准选择的艺术？

2. Hybrid模式的回退机制，是"聪明"还是"心虚"？

3. 3B模型打赢30B，是架构创新，还是数据碾压？

总结