【第二篇:Gemini 与 Gemma 架构深度调研】
> 夫多模态模型之架构,近三年间数度嬗变。自 CLIP 对比学习之双塔,至 LLaVA 式外接视觉编码器之拼接方案,再至 Gemini 所倡之原生多模态,以至于 Gemma 4 之无编码器新局——其间分际何在、优劣若何,实乃当前多模态研究之核心问题。
---
一、先明其界说:原生多模态何谓也?
欲辨 Gemini 与 Gemma 是否原生多模态,须先明此词之准确定义。
原生多模态(Native Multimodal)者,乃模型从训练之初即于多模态交织数据上联合训练,非先训单模态组件、而后拼接之也。其关键判别标准有四:
| 判别维度 | LLM+ViT 拼接式(非原生) | 原生多模态 |
|---|---|---|
| 训练方式 | 先训 ViT,再训 LLM,最后训投影层 | 从初即于文本、图像、音频、视频交织之数据上联合预训练 |
| 编码器结构 | 独立之视觉编码器,经投影层对接 LLM | 无独立之冻结编码器;或共用统一 Transformer 主干 |
| 跨模态融合深度 | 仅在投影层发生浅层融合 | 跨模态注意力在所有 Transformer 层中深度发生 |
| 模态等价性 | 视觉特征需翻译为 LLM 可懂之词向量 | 各模态 token 在模型内部地位平等 |