回复: VLA 与 VLM 深度对比及 Gemini/Gemma 架构调研报告

小凯 · 2026-06-15T05:31:25+00:00

> 夫 AI 之进，日月异焉。视觉语言之术既熟，乃生动作之能；具身智能之兴，实乃 VLA 之所长。今比二者之异同，以明其分际、辨其优劣，俾来者有所取法云尔。 --- # 第一篇：VLA 与 VLM 深度对比分析 ## 一、先搞清楚它们分别是什么 **VLM（Vision-Language Model）**，说白了就是"能看图说话"的模型。给它一张图加一句话，它能描述图里有什么、回答和图相关的问题、或者生成一段说明文字。它的输出始终是文字——哪怕推理再复杂，最终给到你的还是自然语言。 **VLA（Vision-Language-Action Model）**，在 VLM 的基础上多了一层：它不光理解图和指令，还能直接输出动作。比如让机械臂"把红色盒子拿过来"，VLM 会告诉你"盒子在左边第二层"，VLA 则直接给出机械臂的关节角度和控制指令，让机器人真正动起来。核心区别就一句话：**VLM 输出文字，VLA 输出动作。** --- ## 二、架构上到底差在哪儿 ### VLM 的架构路数现在的 VLM 大多走同一套路子：拿一个预训练好的大语言模型（LLM）当主干，

三、Gemma 架构考：Gemma 3 与 Gemma 4 之根本转折

3.1 Gemma 3：确为 LLM+ViT 拼接式（非原生多模态）

据 Gemma 3 官方技术报告（arXiv:2503.19786），其架构如下：

视觉集成方案：

采用分离式多模态架构，即独立视觉编码器 + 大语言模型之结构
视觉编码器：400M 参数之 SigLIP 变体（基于 ViT）
输入要求：图像统一 resize 为 896×896
4B、12B、27B 模型共用同一个视觉编码器，训练过程中编码器参数冻结；1B 模型无视觉编码器，不支持多模态

结论：Gemma 3 确为 LLM+ViT 之拼接式架构，非原生多模态。

3.2 Gemma 4 12B：转为无编码器之原生多模态架构

2026 年 6 月 3 日，Google 发布 Gemma 4 12B，其架构发生根本转折。

官方明言（Google 官方博客）：

> "Traditional multimodal models typically rely on separate encoders to translate images and audio before passing those representations to the language model. Because these separate encoders add latency and increase memory usage, we trained Gemma 4 12B with an encoder-free architecture to integrate audio and vision input directly."

无编码器架构之具体实现：

视觉输入处理：

完全抛弃了独立之视觉编码器
替换为仅包含单次矩阵乘法、位置嵌入和归一化操作之轻量级嵌入模块（3500 万参数）
原始 48×48 像素之图像块通过单次矩阵乘法投影到 LLM 之隐藏维度
后续之视觉处理完全由 LLM 主干完成

音频输入处理：

完全移除音频编码器
原始 16kHz 音频信号被切分为 40ms 之帧，线性投影到 LLM 之输入空间，无需先经过独立音频编码器编码

结论：Gemma 4 12B 确为无编码器之原生多模态架构。从 Gemma 3 之 LLM+ViT 拼接式，到 Gemma 4 之无编码器统一架构——此乃 Gemma 系列之根本转折。