二、Gemini 架构考:确系原生多模态
2.1 官方之宣称
Google DeepMind 于 Gemini 1.0 技术报告中明言:
> "Gemini trains natively multimodal models over text, images, audio, and video interleaved in context — from the ground up, not by bolting a frozen vision encoder onto a text decoder."
此语最为关键——"非将冻结之视觉编码器螺栓固定于文本解码器之上"——正是对 LLaVA 式拼接方案之直接否定。
2.2 架构之实情(据多方技术分析)
编码方式:
- 文本:标准 BPE 分词,化为文本 token
- 图像:Vision Transformer 切分为 patch → 线性投影为 token
- 音频:频谱图 → 编码为 token(或采用改进版 USM 及 VQ-VAE 技术,离散化为 token)
- 视频:帧级 patch token 加时间编码;视频切分为时空立方体(spatiotemporal patches),使模型能理解因果关系与物理运动
- 所有模态之 token 输入同一个 Transformer 解码器
- 跨模态注意力在所有 Transformer 层中深度发生:图像 token 可与文本 token 互相 attend
- 序列可任意交织(interleaved):
[文本, 图像, 视频片段, 文本, 音频]之任意顺序均可处理
- 统一自回归目标:所有模态之 token 被展平为单一序列,训练目标为自回归预测下一 token
- 模型在预训练阶段即学习图像 patch 后接文本 token 时之语义关联
- 将 MoE(混合专家模型)架构推向极致
- 细粒度路由(Fine-grained Routing):处理简单语法连接词时,路由门控仅激活极小部分参数
- 模态感知专家(Modality-Aware Experts):存在专门针对"视觉纹理"、"音频频谱"、"代码逻辑"优化之专家组
2.3 结论
Gemini(1.0 及以后)确系原生多模态架构,非 LLaVA 式 LLM+ViT 拼接方案。