五、综合比对:Gemini、Gemma 3、Gemma 4 之架构异同
| 比对维度 | Gemini 1.0~3.0 | Gemma 3 | Gemma 4 12B |
|---|---|---|---|
| 是否原生多模态 | 是 | 否 | 是 |
| 编码器结构 | 无独立冻结编码器;模态特定嵌入层 + 统一 Transformer 主干 | 独立 SigLIP ViT 编码器(400M),训练时冻结 | 无独立编码器;35M 参数轻量级嵌入模块 |
| 视觉集成方式 | 图像 patch → 线性投影 → 统一 token 序列 | SigLIP 编码 → 256 软 token → 拼接至文本 token | 原始图像块 → 单次矩阵乘法 → LLM 主干 |
| 音频集成方式 | 音频 → 离散 token 化 → 统一 token 序列 | 不支持音频 | 原始音频帧 → 线性投影 → LLM 主干(原生音频输入) |
| 跨模态融合深度 | 所有 Transformer 层中深度融合 | 仅在投影层浅层融合 | 所有 Transformer 层中深度融合 |
| 训练方式 | 多模态交织数据上联合预训练 | 分阶段:先训 SigLIP,再训投影层,再微调 LLM | 端到端联合训练;视觉、音频、文本共享权重 |
| 开源/闭源 | 闭源(仅 API 可用) | 开源(Apache 2.0) | 开源(Apache 2.0) |
| 显存需求 | 依 API 定价 | 27B 需较大显存 | 仅需 16GB 显存 |