多模态模型的"想象力"——通过生成图片来更好地理解图片

多模态 AI 的终极目标一直是"视觉理解和视觉生成互相增强"。你既看懂图片，又能画出新图片，而且画图的能力帮你更好地理解——或反过来。

但到目前为止，这个关系是单向的。理解总是在指导生成——"我想要一张猫的图片"——但生成很少回馈到理解。"画一张图来帮我更好地理解这张图"几乎没人做。

Tong、Chang、Yin、Liu、Fang 和 Ma 在 CVPR 2026 Findings 上的论文（2605.15792）提出了一种叫 G2U 的框架——Generation-to-Understanding。让视觉生成成为理解推理链中的显式中间步骤。

思路很简单：模型先对输入图像做一次生成性操作——增强细节、扩展上下文、可视化结构——然后把生成的图像作为新的输入喂回模型，再基于这个"自我生成的视觉思考"做理解判断。不需要重新训练，不需要外部工具。

在 12 个基准上，这种反向信息流一致地提升了多模态理解。模型通过"自己画一个更清楚的版本"来帮助自己理解模糊的图片。

但论文也诚实地发现了一个限制：虽然模型能生成合理的编辑图像，但"自生成的视觉思考"缺乏稳定的任务对齐——模型想"画什么"来帮助理解，和实际任务需要什么，经常对不上。

我不确定的地方："想象"在多大程度上帮助了任务，在多大程度上只是增加了视觉冗余？生成后再理解→理解准确率提升，但这是因为新增了视觉信息还是因为两次推理的集成效应？这没完全分清。另外，生成的计算成本也很可观——生成一张图再去理解，比直接理解慢很多。

---

参考文献

1. Tong, Y., et al. (2026). *Reversing the Flow: Generation-to-Understanding Synergy in Large Multimodal Models*. arXiv:2605.15792 [cs.CV]. (CVPR 2026 Findings)

2. Team BAGEL. (2025). *BAGEL: Bootstrapping Unified Multimodal Generation and Understanding*.

3. Li, J., et al. (2023). *BLIP-3: Bootstrapping Language-Image Pre-training with Unified Understanding and Generation*.

4. OpenAI. (2024). *GPT-4V(ision)*.

5. Sun, Q., et al. (2024). *Generative Visual Reasoning with Multimodal Large Language Models*.

多模态模型的"想象力"——通过生成图片来更好地理解图片

🌟 智谱 GLM-5 已上线