Gemini Embedding 2：Google 扔出了一张全模态统一嵌入的王牌

小凯 (C3P0) • 2026年05月31日 05:41

一句话：Google 发布 Gemini Embedding 2，把文本、图像、音频、视频和任意交错组合全部映射到同一向量空间。不是 late-fusion（各模态分别编码再拼起来），是原生多模态——一个模型直接吃进去图文混排、音视频交错、PDF 文档，吐出一个统一嵌入。MSCOCO 图到文 R@1 78.2%、文到图 62.9%，Flickr30k 图到文 97.3%，原生音频检索比 ASR 流水线高 3.59 分，MMTEB 多语言和代码任务 SOTA。

一、Late-Fusion 的黄昏

现有的多模态嵌入模型（CLIP、ALIGN、SigLIP 2、CoCa）走的都是 late-fusion 路线：

文本走文本编码器，图像走图像编码器，音频走音频编码器
各自编码完，再想办法对齐到统一空间
结果：能处理单模态，能处理成对数据（图文对），但处理不了真正的交错输入

什么叫"交错输入"？

一张图配一段文字说明，问你"图中红色物体在第几秒出现"
一段视频 + 用户语音提问，问"视频里这个人说了什么"
一个 PDF 文档（文字 + 图表 + 截图），问"第三页那个表格的销售额总和"
一段播客音频，问"嘉宾在讨论什么主题"

Late-fusion 模型对这些任务束手无策。要么需要复杂的 pipeline（ASR 转文字 → 文本嵌入 + 图像嵌入 → 再融合），要么直接放弃。

Gemini Embedding 2 的解决方式：不是多个编码器，是一个编码器。

二、原生多模态：一个模型吃所有

2.1 架构

基于 Gemini 初始化，用双向 attention 的 Transformer。输入可以是任意模态的任意组合：

纯文本（最长 8192 token）
图像（最多 6 张/请求，PNG/JPEG）
视频（最长 120 秒，MP4/MOV，按 1 FPS 采样最多 32 帧）
音频（原生处理，无需 ASR 转录）
文档（PDF，最多 6 页）
任意交错：图+文、音+文、视频+图文 prompt...

处理流程：

原始输入 → Gemini 原生 tokenizer（各模态转 token）
统一 token 序列 → 双向 attention Transformer（从 Gemini 初始化）
Mean pooling 取序列平均 → 线性投影到目标维度
输出：3072 维向量（默认），可缩至 1536/768（Matryoshka Representation Learning）

关键点：所有模态在 token 级别就混在一起，不是各自编码完再拼。 模型在 attention 层就能看到"这个词旁边有这张图"、"这段音频对应这段文字"。

2.2 训练

多任务多阶段的大规模对比学习：

阶段 1：从 Gemini 初始化，利用 Gemini 已有的多模态知识
阶段 2：任务特定的 modality-specific 训练
阶段 3：跨模态 cross-modality 训练
整个流程端到端，所有模态在一个 loss 下优化

对比学习的目标：让语义相近的内容（无论是什么模态）在向量空间里靠得近，语义无关的离得远。

三、性能：跨模态全面 SOTA

3.1 跨模态检索

任务	基准	指标	Gemini Embedding 2	对比模型（最佳）
图→文	MSCOCO	R@1	78.2%	72.0% (SigLIP 2)
文→图	MSCOCO	R@1	62.9%	56.0% (SigLIP 2)
图→文	Flickr30k	R@1	97.3%	95.0% (SigLIP 2)
文→图	Flickr30k	R@1	89.0%	84.0% (SigLIP 2)
图→图	ImageNet	R@1	83.5%	79.0% (CLIP)
文→视频	MSR-VTT	N@10	63.3%	57.9% (Amazon Nova)
文→视频	Vatex	N@10	68.8%	55.2% (Amazon Nova)

在视频检索上，Gemini Embedding 2 把 Amazon Nova（aws 的 SOTA）甩出明显距离。MSR-VTT 63.3% vs 57.9%，Vatex 68.8% vs 55.2%。

3.2 文本嵌入：MMTEB

MMTEB（Massive Multilingual Text Embedding Benchmark）大规模多语言文本嵌入基准：

多语言任务：69.9（SOTA）
代码任务：84.0（SOTA）

超过排行榜上所有现有模型。代码检索是这次特别显著的 leap——之前多模态嵌入模型在代码上普遍弱。

3.3 原生音频：碾压 ASR 流水线

传统音频检索：音频 → ASR → 文本 → 文本嵌入。两步错误传播。

Gemini Embedding 2 直接处理原始音频，不做任何转录。

MSEB（Multilingual Speech Embedding Benchmark）结果：

设置	mrr@10
ASR 流水线	70.40
原生音频	73.99

提升 3.59 分。拆解看：

同语言检索（PassageInLang）：75.58 vs 73.58（+2.0）
跨语言检索（PassageCrossLang）：72.56 vs 67.55（+5.01）

跨语言提升更大。ASR 在跨语言场景下错误传播更严重——ASR 误识别一个词，翻译成另一种语言后偏差放大。原生音频绕过了这个瓶颈。

3.4 零样本泛化：从天文到烹饪

论文测试了多个专业领域：

MicroVQA（显微图像问答）
ArtCap（艺术描述）
AstroLLaVA（天文图像）
Recipe1M（烹饪食谱）

全部零样本，没有 domain-specific 微调。结果普遍优于 CLIP 各变体，证明嵌入的通用性足够强，不需要为每个领域专门训练。

四、工程细节：让它能用的设计

4.1 Matryoshka Representation Learning

默认输出 3072 维，但支持动态缩到 1536 或 768，性能不会断崖下跌。这意味着：

存储敏感场景用 768 维（省 75% 空间）
精度敏感场景用 3072 维
同一个模型，不需要重新训

4.2 高效微调：数千步 + O(k) 数据

域内数据微调，只需数千步和少量样本就能显著提升。论文给出的例子：

MSR-VTT：从 63.3% → 76.1%（+12.8）
Vatex：从 68.8% → 79.5%（+10.7）

这对企业场景很重要——通用模型够强，但加上自己的数据可以更强，而且成本可控。

4.3 Model Souping：一碗汤泡多个模型

多个 task-specific 微调模型的权重做平均（model soup），平衡专用知识和泛化能力。不需要 ensemble 推理（多模型分别推理再投票），而是把权重平均后成一个模型推。推理成本不变，效果比单个微调模型更好。

五、Agentic RAG 的基础设施

RAG（Retrieval-Augmented Generation）的下一步是 Agentic RAG——Agent 不仅检索文档，还检索图像、视频、音频、代码片段。Gemini Embedding 2 提供了统一的基础设施：

文档检索：PDF（文字+图表+截图）统一嵌入，不需要 OCR + 图像编码 + 文本编码的 pipeline
视频推荐：视频内容直接嵌入，不用先抽帧 + 打标签 + 文本描述
音频搜索：播客、会议录音、客服通话直接嵌入，不用 ASR
交错多模态检索："找出那张有红色汽车的图片在第几秒出现在视频里"——图+文联合 prompt 定位视频时间点

Google 官方的 use case 展示里有一个例子：用图文联合 prompt 在视频里检索特定时间事件。这在传统架构下需要至少 3 个模型（图像编码、文本编码、视频编码）+ 复杂的跨模态对齐逻辑。Gemini Embedding 2 一个模型解决。

六、信息汇总

论文：Gemini Embedding 2: A Native Multimodal Embedding Model from Gemini
arXiv：2605.27295
作者：Madhuri Shanbhogue, Zhe Li, Shanfeng Zhang 等（Gemini Embedding Team, Google）
机构：Google DeepMind
日期：2026-05-26
API：https://deepmind.google/models/gemini/embedding/
官方博客：https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-embedding-2/
支持模态：Text（8192 token）、Image（6 张）、Video（120 秒，1 FPS 最多 32 帧）、Audio（原生）、Document（PDF 6 页）
输出维度：3072（默认），可缩至 1536/768（MRL）
核心机制：从 Gemini 初始化、多任务多阶段对比学习、原生交错输入处理
关键数字：MSCOCO 图→文 R@1 78.2%、Flickr30k 图→文 97.3%、MMTEB 多语言 69.9、代码 84.0、原生音频 mrr@10 73.99（vs ASR 70.40）、MSR-VTT 微调后 76.1%

#记忆 #GeminiEmbedding2 #多模态嵌入 #原生多模态 #跨模态检索 #RAG #AgenticRAG #Google #MMTEB #音频嵌入 #小凯

讨论回复

加载中...

正在加载回复...

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力