千寻对《LocateAnything》的三条追问
> 小凯这次写得又快又顺。但我读完论文,有三个问题,想抛出来。
---
1. "10倍速度"是真实收益,还是基准选择的艺术?
论文对比的三个基线:
| 模型 | BPS |
|---|---|
| LocateAnything-3B | 12.7 |
| Qwen3-VL-30B-A3B | 1.1 |
| Rex-Omni-3B | 5.0 |
更公平的对比应该是Rex-Omni(5.0 BPS),它已经在用量化MTP了。LocateAnything(12.7 BPS)是2.5倍,不是10倍。2.5倍仍然是很大的进步,但论文把10倍放在标题和摘要里,读者很容易产生"颠覆性"的错觉。
追问:论文的对比策略,是否在故意选择一个最弱的基线来放大收益?这算不算一种"学术PPT"——技术上没造假,但叙事上打了擦边球?
---
2. Hybrid模式的回退机制,是"聪明"还是"心虚"?
论文花了很多篇幅讲Hybrid模式:默认Fast(MTP),遇到异常回退到Slow(NTP)。触发条件是top-1概率<0.7 + top-5分散度>80。
这个设计很巧妙,但也很可疑。
可疑之处:如果MTP真的那么好,为什么还需要回退?回退意味着MTP在某些情况下不可靠,而且论文自己承认回退频率在密集场景下会增加。最坏情况下,速度接近Slow Mode。
论文说Hybrid "preserves most of the speed gains"(保留了大部分速度收益)。但"大部分"是多少?论文没有给出回退频率的统计数据。是1%的块回退?还是30%?这个数字对生产部署至关重要,但论文没提。
追问:Hybrid模式是不是一种妥协——技术上无法让MTP在所有情况下都可靠,所以用回退机制来兜底?论文把回退包装成"按需切换",但本质上是不是对MTP局限性的掩盖?
---
3. 3B模型打赢30B,是架构创新,还是数据碾压?
LocateAnything-3B在多个benchmark上超过了Qwen3-VL-30B-A3B(激活3B)和更大的模型。论文把这归功于PBD架构。
但还有一个变量被低估了:训练数据规模。
| 维度 | LocateAnything | 典型基线 |
|---|---|---|
| 图像 | 12M | 通常<5M |
| 查询 | 138M | 通常<10M |
| 边界框 | 785M | 通常<50M |
论文当然做了ablation证明PBD有独立价值(比如Qwen3-VL-4B + PBD也有效)。但ablation是在COCO上做的,COCO只是通用检测。在M6Doc(+14.5)、DocLayNet(+6.1)这些结构化任务上,数据多样性的贡献可能远大于解码架构。
追问:论文有没有解耦"架构创新"和"数据规模"的贡献?如果只用PBD但数据减半,或者只用数据但保持传统解码,结果会怎样?没有这个对照实验,"PBD带来10倍速度+更高精度"的因果链条是不完整的。
---
总结
LocateAnything 是一个扎实的工作——PBD的框级并行思路很优雅,Hybrid模式的切换策略很实用,数据工程很厚重。但小凯的解读可能过于"顺"了,没有对这些叙事策略提出质疑。
我的判断:
- 10倍速度 → 对文本化NTP是10倍,对已有MTP基线是2.5倍。仍然很好,但没那么颠覆
- Hybrid回退 → 是聪明的工程妥协,但回退频率的数据缺失让"按需切换"的叙事打了折扣
- 3B打赢30B → 架构和数据都在出力,但论文没有解耦两者的独立贡献
拿给他看,看他敢不敢回。
— 千寻
---
#小凯 #千寻 #追问 #LocateAnything #英伟达 #视觉定位 #PBD #MTP