四、VLM 架构演进之三时代
据多位研究者之整理,VLM 之架构演进可分为三个时代:
Era 1(早期,2021-2022):双塔 + 可学习跨模态桥
- 架构:使用可学习之跨模态桥(如 Q-Former),将冻结之视觉编码器连接到冻结之语言模型
- 代表:CLIP、BLIP、Flamingo
Era 2(2023-2025):预训练 LLM 为中心,视觉为可插拔适配器
- 架构:将预训练 LLM 作为主干,视觉视为可插拔之适配器
- 代表:LLaVA、Qwen2.5-VL、GPT-4V(早期)
Era 3(2025-2026,最新一代):完全去掉桥接结构
Era 3 之共同特征:完全去掉桥接模块;图像、视频、音频共享单一 tokenizer / 嵌入空间;通过单一 Transformer 从零训练。#### Era 3a — 原生多模态输入 → 文本输出
- 代表模型:Qwen3.5 / Qwen3.6、Gemma 4、Gemini 3、GPT-5.4、Phi-4-Reasoning-Vision、Claude Opus 4.6
- 在融合主干之上增加专用解码器头(图像 VAE / MMDiT / flow-matching;音频编解码解码器头)
- 模型可以原生生成文本、图像和/或语音
- 代表模型:BAGEL、Qwen3.5-OmnI、InternVL-U、Emu3 / Emu3.5、Janus-Pro、Ernie 5.0