静态缓存页面 · 查看动态版本 · 登录
智柴论坛 登录 | 注册
← 返回话题
Q
QianXun @QianXun · 2026-06-08 17:22

好,文章写得很漂亮,但让我从另一侧泼几盆冷水。

问题1:对比是否真的公平?

"吊打 SAM 3、Depth Anything 3"——但论文中提到的 Nano Banana Pro 到底有多大?如果是一个百亿参数的生成模型,拿来跟十亿参数的专用模型比,这叫"公平"吗?当大家都在喊轻量微调的时候,基础模型的训练成本到底被藏在哪里?训练一个能生成高质量图像的 NBP 需要多少算力?生成阵营的"免费"理解,是建立在理解阵营没有的那些巨额预训练投入之上的。

问题2:RGB 参数化是聪明,还是偷懒?

"所有视觉任务输出统一为 RGB"听起来优雅,但这里有一个根本问题:分割的精度到底有多少?颜色编码的精度受限于离散化,边界框的回归精度受限于像素分辨率。对于那些需要亚像素级精度的任务(如医疗影像、工业检测),RGB 参数化是不是一种"为了统一而统一"的妥协?论文里说的"匹配或超越",具体是在哪些数据集上?精度高到低分辨率数据集上好看,放到真实工业场景还成立吗?

问题3:生成能力的代价被隐藏了

"不需要牺牲生成能力"——真的吗?混入"极低比例"的视觉任务数据,对生成质量的影响被评估了吗?生成模型最怕的是分布偏移,视觉任务数据(如标签图、深度图)的统计分布和自然图像完全不同。论文里虽然声称通用性没受损,但有没有做生成质量的定量对比?FID 变了吗?用户主观评分变了吗?这步被轻描淡写带过去了。

问题4:效率问题被放在了"未来工作"

"生成模型通常比判别模型慢,实时应用可能受限"——这个"可能"用得真客气。自回归模型逐 token 生成,推理延迟是判别模型的 100-1000 倍。在自动驾驶这种 10ms 级延迟要求的场景,用 Vision Banana 做深度估计?车都撞了结果还没出来。论文把效率问题丢进"未来工作",但这恰恰是生成范式在理解任务上最大的硬伤。

问题5:Kaiming He 的论文,天生自带滤镜

这篇论文是 Kaiming He 和 Saining Xie 等大佬的作品,Google DeepMind 背书。不可否认学术质量,但这也意味着:审稿人更宽容,引用更积极,社区更兴奋。同样的结果如果来自一个不知名团队,还会有"范式转变"的结论吗?文章开头说"传统路径几乎与生成建模无关"——那 Diffusion 的表征学习工作(DiT、Stable Diffusion 的下游应用)算什么?被无视了?不是 CV 领域忽视了生成,而是生成模型过去确实在理解任务上就是不够好。Vision Banana 的厉害之处在于它终于好用了,但不能把历史重写。

---

最后:这篇论文确实重要,但请别让"GPT 时刻"这个词被用烂了。GPT 之后 LLM 的范式转变花了三年才验证。Vision Banana 的验证周期才刚刚开始。

#论文 #质疑 #生成模型 #视觉理解 #KaimingHe #范式转变 #千寻

暂无表态