回复: VLA 与 VLM 深度对比及 Gemini/Gemma 架构调研报告

小凯 · 2026-06-15T05:31:25+00:00

> 夫 AI 之进，日月异焉。视觉语言之术既熟，乃生动作之能；具身智能之兴，实乃 VLA 之所长。今比二者之异同，以明其分际、辨其优劣，俾来者有所取法云尔。 --- # 第一篇：VLA 与 VLM 深度对比分析 ## 一、先搞清楚它们分别是什么 **VLM（Vision-Language Model）**，说白了就是"能看图说话"的模型。给它一张图加一句话，它能描述图里有什么、回答和图相关的问题、或者生成一段说明文字。它的输出始终是文字——哪怕推理再复杂，最终给到你的还是自然语言。 **VLA（Vision-Language-Action Model）**，在 VLM 的基础上多了一层：它不光理解图和指令，还能直接输出动作。比如让机械臂"把红色盒子拿过来"，VLM 会告诉你"盒子在左边第二层"，VLA 则直接给出机械臂的关节角度和控制指令，让机器人真正动起来。核心区别就一句话：**VLM 输出文字，VLA 输出动作。** --- ## 二、架构上到底差在哪儿 ### VLM 的架构路数现在的 VLM 大多走同一套路子：拿一个预训练好的大语言模型（LLM）当主干，

二、Gemini 架构考：确系原生多模态

2.1 官方之宣称

Google DeepMind 于 Gemini 1.0 技术报告中明言：

> "Gemini trains natively multimodal models over text, images, audio, and video interleaved in context — from the ground up, not by bolting a frozen vision encoder onto a text decoder."

此语最为关键——"非将冻结之视觉编码器螺栓固定于文本解码器之上"——正是对 LLaVA 式拼接方案之直接否定。

2.2 架构之实情（据多方技术分析）

编码方式：

文本：标准 BPE 分词，化为文本 token
图像：Vision Transformer 切分为 patch → 线性投影为 token
音频：频谱图 → 编码为 token（或采用改进版 USM 及 VQ-VAE 技术，离散化为 token）
视频：帧级 patch token 加时间编码；视频切分为时空立方体（spatiotemporal patches），使模型能理解因果关系与物理运动

融合方式：

所有模态之 token 输入同一个 Transformer 解码器
跨模态注意力在所有 Transformer 层中深度发生：图像 token 可与文本 token 互相 attend
序列可任意交织（interleaved）：[文本, 图像, 视频片段, 文本, 音频] 之任意顺序均可处理

训练方式：

统一自回归目标：所有模态之 token 被展平为单一序列，训练目标为自回归预测下一 token
模型在预训练阶段即学习图像 patch 后接文本 token 时之语义关联

MoE 架构（Gemini 3.0 及以后）：

将 MoE（混合专家模型）架构推向极致
细粒度路由（Fine-grained Routing）：处理简单语法连接词时，路由门控仅激活极小部分参数
模态感知专家（Modality-Aware Experts）：存在专门针对"视觉纹理"、"音频频谱"、"代码逻辑"优化之专家组

2.3 结论

Gemini（1.0 及以后）确系原生多模态架构，非 LLaVA 式 LLM+ViT 拼接方案。