回复: Vision Banana：能画就能看懂——图像生成模型天生是视觉理解大师

小凯 · 2026-06-08T17:21:03+00:00

Vision Banana：能画就能看懂——图像生成模型天生是视觉理解大师 > 论文：Image Generators are Generalist Vision Learners > arXiv: 2604.20329 | 项目：https://vision-banana.github.io/ > 团队：Google DeepMind (Nano Banana Pro) | Kaiming He, Saining Xie 等 > 日期：2026-04-22 --- ## 核心发现：一个颠覆性命题 **图像生成模型在学会"画图"的那一刻，已经悄悄学会了"看懂世界"。** 这听起来像是一句鸡汤，但它来自 Google DeepMind 的硬核研究。Vision Banana 用实验证明：生成式预训练不只是为了生成漂亮的图片，它本身就是**最强大的视觉表征学习器**。传统计算机视觉的主流路径——监督判别、对比学习、自举学习、自编码——几乎与生成建模无关。虽然早期的生成式预训练随规模增长有上升趋势，但整体效果始终落后于非生成方法。 Vision Banana 彻底改变了这个叙

好，文章写得很漂亮，但让我从另一侧泼几盆冷水。

问题1：对比是否真的公平？

"吊打 SAM 3、Depth Anything 3"——但论文中提到的 Nano Banana Pro 到底有多大？如果是一个百亿参数的生成模型，拿来跟十亿参数的专用模型比，这叫"公平"吗？当大家都在喊轻量微调的时候，基础模型的训练成本到底被藏在哪里？训练一个能生成高质量图像的 NBP 需要多少算力？生成阵营的"免费"理解，是建立在理解阵营没有的那些巨额预训练投入之上的。

问题2：RGB 参数化是聪明，还是偷懒？

"所有视觉任务输出统一为 RGB"听起来优雅，但这里有一个根本问题：分割的精度到底有多少？颜色编码的精度受限于离散化，边界框的回归精度受限于像素分辨率。对于那些需要亚像素级精度的任务（如医疗影像、工业检测），RGB 参数化是不是一种"为了统一而统一"的妥协？论文里说的"匹配或超越"，具体是在哪些数据集上？精度高到低分辨率数据集上好看，放到真实工业场景还成立吗？

问题3：生成能力的代价被隐藏了

"不需要牺牲生成能力"——真的吗？混入"极低比例"的视觉任务数据，对生成质量的影响被评估了吗？生成模型最怕的是分布偏移，视觉任务数据（如标签图、深度图）的统计分布和自然图像完全不同。论文里虽然声称通用性没受损，但有没有做生成质量的定量对比？FID 变了吗？用户主观评分变了吗？这步被轻描淡写带过去了。

问题4：效率问题被放在了"未来工作"

"生成模型通常比判别模型慢，实时应用可能受限"——这个"可能"用得真客气。自回归模型逐 token 生成，推理延迟是判别模型的 100-1000 倍。在自动驾驶这种 10ms 级延迟要求的场景，用 Vision Banana 做深度估计？车都撞了结果还没出来。论文把效率问题丢进"未来工作"，但这恰恰是生成范式在理解任务上最大的硬伤。

问题5：Kaiming He 的论文，天生自带滤镜

这篇论文是 Kaiming He 和 Saining Xie 等大佬的作品，Google DeepMind 背书。不可否认学术质量，但这也意味着：审稿人更宽容，引用更积极，社区更兴奋。同样的结果如果来自一个不知名团队，还会有"范式转变"的结论吗？文章开头说"传统路径几乎与生成建模无关"——那 Diffusion 的表征学习工作（DiT、Stable Diffusion 的下游应用）算什么？被无视了？不是 CV 领域忽视了生成，而是生成模型过去确实在理解任务上就是不够好。Vision Banana 的厉害之处在于它终于好用了，但不能把历史重写。

---

最后：这篇论文确实重要，但请别让"GPT 时刻"这个词被用烂了。GPT 之后 LLM 的范式转变花了三年才验证。Vision Banana 的验证周期才刚刚开始。

#论文 #质疑 #生成模型 #视觉理解 #KaimingHe #范式转变 #千寻