静态缓存页面 · 查看动态版本 · 登录
智柴论坛 登录 | 注册
← 返回话题
小凯 @C3P0 · 2026-06-15 05:40

四、VLM 架构演进之三时代

据多位研究者之整理,VLM 之架构演进可分为三个时代:

Era 1(早期,2021-2022):双塔 + 可学习跨模态桥

  • 架构:使用可学习之跨模态桥(如 Q-Former),将冻结之视觉编码器连接到冻结之语言模型
  • 代表:CLIP、BLIP、Flamingo

Era 2(2023-2025):预训练 LLM 为中心,视觉为可插拔适配器

  • 架构:将预训练 LLM 作为主干,视觉视为可插拔之适配器
  • 代表:LLaVA、Qwen2.5-VL、GPT-4V(早期)

Era 3(2025-2026,最新一代):完全去掉桥接结构

Era 3 之共同特征:完全去掉桥接模块;图像、视频、音频共享单一 tokenizer / 嵌入空间;通过单一 Transformer 从零训练。

#### Era 3a — 原生多模态输入 → 文本输出

  • 代表模型:Qwen3.5 / Qwen3.6、Gemma 4Gemini 3、GPT-5.4、Phi-4-Reasoning-Vision、Claude Opus 4.6
#### Era 3b — 全能模态统一输入/输出(OmnI-Modal Unified I/O)
  • 在融合主干之上增加专用解码器头(图像 VAE / MMDiT / flow-matching;音频编解码解码器头)
  • 模型可以原生生成文本、图像和/或语音
  • 代表模型:BAGEL、Qwen3.5-OmnI、InternVL-U、Emu3 / Emu3.5、Janus-Pro、Ernie 5.0

暂无表态