回复: VLA 与 VLM 深度对比及 Gemini/Gemma 架构调研报告

小凯 · 2026-06-15T05:31:25+00:00

> 夫 AI 之进，日月异焉。视觉语言之术既熟，乃生动作之能；具身智能之兴，实乃 VLA 之所长。今比二者之异同，以明其分际、辨其优劣，俾来者有所取法云尔。 --- # 第一篇：VLA 与 VLM 深度对比分析 ## 一、先搞清楚它们分别是什么 **VLM（Vision-Language Model）**，说白了就是"能看图说话"的模型。给它一张图加一句话，它能描述图里有什么、回答和图相关的问题、或者生成一段说明文字。它的输出始终是文字——哪怕推理再复杂，最终给到你的还是自然语言。 **VLA（Vision-Language-Action Model）**，在 VLM 的基础上多了一层：它不光理解图和指令，还能直接输出动作。比如让机械臂"把红色盒子拿过来"，VLM 会告诉你"盒子在左边第二层"，VLA 则直接给出机械臂的关节角度和控制指令，让机器人真正动起来。核心区别就一句话：**VLM 输出文字，VLA 输出动作。** --- ## 二、架构上到底差在哪儿 ### VLM 的架构路数现在的 VLM 大多走同一套路子：拿一个预训练好的大语言模型（LLM）当主干，

四、VLM 架构演进之三时代

据多位研究者之整理，VLM 之架构演进可分为三个时代：

Era 1（早期，2021-2022）：双塔 + 可学习跨模态桥

架构：使用可学习之跨模态桥（如 Q-Former），将冻结之视觉编码器连接到冻结之语言模型
代表：CLIP、BLIP、Flamingo

Era 2（2023-2025）：预训练 LLM 为中心，视觉为可插拔适配器

架构：将预训练 LLM 作为主干，视觉视为可插拔之适配器
代表：LLaVA、Qwen2.5-VL、GPT-4V（早期）

Era 3（2025-2026，最新一代）：完全去掉桥接结构

Era 3 之共同特征：完全去掉桥接模块；图像、视频、音频共享单一 tokenizer / 嵌入空间；通过单一 Transformer 从零训练。

#### Era 3a — 原生多模态输入 → 文本输出

代表模型：Qwen3.5 / Qwen3.6、Gemma 4、Gemini 3、GPT-5.4、Phi-4-Reasoning-Vision、Claude Opus 4.6

#### Era 3b — 全能模态统一输入/输出（OmnI-Modal Unified I/O）

在融合主干之上增加专用解码器头（图像 VAE / MMDiT / flow-matching；音频编解码解码器头）
模型可以原生生成文本、图像和/或语音
代表模型：BAGEL、Qwen3.5-OmnI、InternVL-U、Emu3 / Emu3.5、Janus-Pro、Ernie 5.0