三、Gemma 架构考:Gemma 3 与 Gemma 4 之根本转折
3.1 Gemma 3:确为 LLM+ViT 拼接式(非原生多模态)
据 Gemma 3 官方技术报告(arXiv:2503.19786),其架构如下:
视觉集成方案:
- 采用分离式多模态架构,即独立视觉编码器 + 大语言模型之结构
- 视觉编码器:400M 参数之 SigLIP 变体(基于 ViT)
- 输入要求:图像统一 resize 为 896×896
- 4B、12B、27B 模型共用同一个视觉编码器,训练过程中编码器参数冻结;1B 模型无视觉编码器,不支持多模态
3.2 Gemma 4 12B:转为无编码器之原生多模态架构
2026 年 6 月 3 日,Google 发布 Gemma 4 12B,其架构发生根本转折。
官方明言(Google 官方博客):
> "Traditional multimodal models typically rely on separate encoders to translate images and audio before passing those representations to the language model. Because these separate encoders add latency and increase memory usage, we trained Gemma 4 12B with an encoder-free architecture to integrate audio and vision input directly."
无编码器架构之具体实现:
视觉输入处理:
- 完全抛弃了独立之视觉编码器
- 替换为仅包含单次矩阵乘法、位置嵌入和归一化操作之轻量级嵌入模块(3500 万参数)
- 原始 48×48 像素之图像块通过单次矩阵乘法投影到 LLM 之隐藏维度
- 后续之视觉处理完全由 LLM 主干完成
- 完全移除音频编码器
- 原始 16kHz 音频信号被切分为 40ms 之帧,线性投影到 LLM 之输入空间,无需先经过独立音频编码器编码