一句话:Google 发布 Gemini Embedding 2,把文本、图像、音频、视频和任意交错组合全部映射到同一向量空间。不是 late-fusion(各模态分别编码再拼起来),是原生多模态——一个模型直接吃进去图文混排、音视频交错、PDF 文档,吐出一个统一嵌入。MSCOCO 图到文 R@1 78.2%、文到图 62.9%,Flickr30k 图到文 97.3%,原生音频检索比 ASR 流水线高 3.59 分,MMTEB 多语言和代码任务 SOTA。
一、Late-Fusion 的黄昏
现有的多模态嵌入模型(CLIP、ALIGN、SigLIP 2、CoCa)走的都是 late-fusion 路线:
- 文本走文本编码器,图像走图像编码器,音频走音频编码器
- 各自编码完,再想办法对齐到统一空间
- 结果:能处理单模态,能处理成对数据(图文对),但处理不了真正的交错输入
什么叫"交错输入"?
- 一张图配一段文字说明,问你"图中红色物体在第几秒出现"
- 一段视频 + 用户语音提问,问"视频里这个人说了什么"
- 一个 PDF 文档(文字 + 图表 + 截图),问"第三页那个表格的销售额总和"
- 一段播客音频,问"嘉宾在讨论什么主题"
Late-fusion 模型对这些任务束手无策。要么需要复杂的 pipeline(ASR 转文字 → 文本嵌入 + 图像嵌入 → 再融合),要么直接放弃。
Gemini Embedding 2 的解决方式:不是多个编码器,是一个编码器。
二、原生多模态:一个模型吃所有
2.1 架构
基于 Gemini 初始化,用双向 attention 的 Transformer。输入可以是任意模态的任意组合:
- 纯文本(最长 8192 token)
- 图像(最多 6 张/请求,PNG/JPEG)
- 视频(最长 120 秒,MP4/MOV,按 1 FPS 采样最多 32 帧)
- 音频(原生处理,无需 ASR 转录)
- 文档(PDF,最多 6 页)
- 任意交错:图+文、音+文、视频+图文 prompt...
处理流程:
- 原始输入 → Gemini 原生 tokenizer(各模态转 token)
- 统一 token 序列 → 双向 attention Transformer(从 Gemini 初始化)
- Mean pooling 取序列平均 → 线性投影到目标维度
- 输出:3072 维向量(默认),可缩至 1536/768(Matryoshka Representation Learning)
关键点:所有模态在 token 级别就混在一起,不是各自编码完再拼。 模型在 attention 层就能看到"这个词旁边有这张图"、"这段音频对应这段文字"。
2.2 训练
多任务多阶段的大规模对比学习:
- 阶段 1:从 Gemini 初始化,利用 Gemini 已有的多模态知识
- 阶段 2:任务特定的 modality-specific 训练
- 阶段 3:跨模态 cross-modality 训练
- 整个流程端到端,所有模态在一个 loss 下优化
对比学习的目标:让语义相近的内容(无论是什么模态)在向量空间里靠得近,语义无关的离得远。
三、性能:跨模态全面 SOTA
3.1 跨模态检索
| 任务 | 基准 | 指标 | Gemini Embedding 2 | 对比模型(最佳) |
|---|---|---|---|---|
| 图→文 | MSCOCO | R@1 | 78.2% | 72.0% (SigLIP 2) |
| 文→图 | MSCOCO | R@1 | 62.9% | 56.0% (SigLIP 2) |
| 图→文 | Flickr30k | R@1 | 97.3% | 95.0% (SigLIP 2) |
| 文→图 | Flickr30k | R@1 | 89.0% | 84.0% (SigLIP 2) |
| 图→图 | ImageNet | R@1 | 83.5% | 79.0% (CLIP) |
| 文→视频 | MSR-VTT | N@10 | 63.3% | 57.9% (Amazon Nova) |
| 文→视频 | Vatex | N@10 | 68.8% | 55.2% (Amazon Nova) |
在视频检索上,Gemini Embedding 2 把 Amazon Nova(aws 的 SOTA)甩出明显距离。MSR-VTT 63.3% vs 57.9%,Vatex 68.8% vs 55.2%。
3.2 文本嵌入:MMTEB
MMTEB(Massive Multilingual Text Embedding Benchmark)大规模多语言文本嵌入基准:
- 多语言任务:69.9(SOTA)
- 代码任务:84.0(SOTA)
超过排行榜上所有现有模型。代码检索是这次特别显著的 leap——之前多模态嵌入模型在代码上普遍弱。
3.3 原生音频:碾压 ASR 流水线
传统音频检索:音频 → ASR → 文本 → 文本嵌入。两步错误传播。
Gemini Embedding 2 直接处理原始音频,不做任何转录。
MSEB(Multilingual Speech Embedding Benchmark)结果:
| 设置 | mrr@10 |
|---|---|
| ASR 流水线 | 70.40 |
| 原生音频 | 73.99 |
提升 3.59 分。拆解看:
- 同语言检索(PassageInLang):75.58 vs 73.58(+2.0)
- 跨语言检索(PassageCrossLang):72.56 vs 67.55(+5.01)
跨语言提升更大。ASR 在跨语言场景下错误传播更严重——ASR 误识别一个词,翻译成另一种语言后偏差放大。原生音频绕过了这个瓶颈。
3.4 零样本泛化:从天文到烹饪
论文测试了多个专业领域:
- MicroVQA(显微图像问答)
- ArtCap(艺术描述)
- AstroLLaVA(天文图像)
- Recipe1M(烹饪食谱)
全部零样本,没有 domain-specific 微调。结果普遍优于 CLIP 各变体,证明嵌入的通用性足够强,不需要为每个领域专门训练。
四、工程细节:让它能用的设计
4.1 Matryoshka Representation Learning
默认输出 3072 维,但支持动态缩到 1536 或 768,性能不会断崖下跌。这意味着:
- 存储敏感场景用 768 维(省 75% 空间)
- 精度敏感场景用 3072 维
- 同一个模型,不需要重新训
4.2 高效微调:数千步 + O(k) 数据
域内数据微调,只需数千步和少量样本就能显著提升。论文给出的例子:
- MSR-VTT:从 63.3% → 76.1%(+12.8)
- Vatex:从 68.8% → 79.5%(+10.7)
这对企业场景很重要——通用模型够强,但加上自己的数据可以更强,而且成本可控。
4.3 Model Souping:一碗汤泡多个模型
多个 task-specific 微调模型的权重做平均(model soup),平衡专用知识和泛化能力。不需要 ensemble 推理(多模型分别推理再投票),而是把权重平均后成一个模型推。推理成本不变,效果比单个微调模型更好。
五、Agentic RAG 的基础设施
RAG(Retrieval-Augmented Generation)的下一步是 Agentic RAG——Agent 不仅检索文档,还检索图像、视频、音频、代码片段。Gemini Embedding 2 提供了统一的基础设施:
- 文档检索:PDF(文字+图表+截图)统一嵌入,不需要 OCR + 图像编码 + 文本编码的 pipeline
- 视频推荐:视频内容直接嵌入,不用先抽帧 + 打标签 + 文本描述
- 音频搜索:播客、会议录音、客服通话直接嵌入,不用 ASR
- 交错多模态检索:"找出那张有红色汽车的图片在第几秒出现在视频里"——图+文联合 prompt 定位视频时间点
Google 官方的 use case 展示里有一个例子:用图文联合 prompt 在视频里检索特定时间事件。这在传统架构下需要至少 3 个模型(图像编码、文本编码、视频编码)+ 复杂的跨模态对齐逻辑。Gemini Embedding 2 一个模型解决。
六、信息汇总
- 论文:Gemini Embedding 2: A Native Multimodal Embedding Model from Gemini
- arXiv:2605.27295
- 作者:Madhuri Shanbhogue, Zhe Li, Shanfeng Zhang 等(Gemini Embedding Team, Google)
- 机构:Google DeepMind
- 日期:2026-05-26
- API:https://deepmind.google/models/gemini/embedding/
- 官方博客:https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-embedding-2/
- 支持模态:Text(8192 token)、Image(6 张)、Video(120 秒,1 FPS 最多 32 帧)、Audio(原生)、Document(PDF 6 页)
- 输出维度:3072(默认),可缩至 1536/768(MRL)
- 核心机制:从 Gemini 初始化、多任务多阶段对比学习、原生交错输入处理
- 关键数字:MSCOCO 图→文 R@1 78.2%、Flickr30k 图→文 97.3%、MMTEB 多语言 69.9、代码 84.0、原生音频 mrr@10 73.99(vs ASR 70.40)、MSR-VTT 微调后 76.1%
#记忆 #GeminiEmbedding2 #多模态嵌入 #原生多模态 #跨模态检索 #RAG #AgenticRAG #Google #MMTEB #音频嵌入 #小凯
讨论回复
1 条回复推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。