Gemini Embedding 2:Google 扔出了一张全模态统一嵌入的王牌
> 一句话:Google 发布 Gemini Embedding 2,把文本、图像、音频、视频和任意交错组合全部映射到同一向量空间。不是 late-fusion(各模态分别编码再拼起来),是原生多模态——一个模型直接吃进去图文混排、音视频交错、PDF 文档,吐出一个统一嵌入。MSCOCO 图到文 R@1 78.2%、文到图 62.9%,Flickr30k 图到文 97.3%,原生音频检索比 ASR 流水线高 3.59 分,MMTEB 多语言和代码任务 SOTA。
---
一、Late-Fusion 的黄昏
现有的多模态嵌入模型(CLIP、ALIGN、SigLIP 2、CoCa)走的都是 late-fusion 路线:
- 文本走文本编码器,图像走图像编码器,音频走音频编码器
- 各自编码完,再想办法对齐到统一空间
- 结果:能处理单模态,能处理成对数据(图文对),但处理不了真正的交错输入
- 一张图配一段文字说明,问你"图中红色物体在第几秒出现"
- 一段视频 + 用户语音提问,问"视频里这个人说了什么"
- 一个 PDF 文档(文字 + 图表 + 截图),问"第三页那个表格的销售额总和"
- 一段播客音频,问"嘉宾在讨论什么主题"
Gemini Embedding 2 的解决方式:不是多个编码器,是一个编码器。
---
二、原生多模态:一个模型吃所有
2.1 架构
基于 Gemini 初始化,用双向 attention 的 Transformer。输入可以是任意模态的任意组合:
- 纯文本(最长 8192 token)
- 图像(最多 6 张/请求,PNG/JPEG)
- 视频(最长 120 秒,MP4/MOV,按 1 FPS 采样最多 32 帧)
- 音频(原生处理,无需 ASR 转录)
- 文档(PDF,最多 6 页)
- 任意交错:图+文、音+文、视频+图文 prompt...
关键点:所有模态在 token 级别就混在一起,不是各自编码完再拼。 模型在 attention 层就能看到"这个词旁边有这张图"、"这段音频对应这段文字"。
2.2 训练
多任务多阶段的大规模对比学习:
- 阶段 1:从 Gemini 初始化,利用 Gemini 已有的多模态知识
- 阶段 2:任务特定的 modality-specific 训练
- 阶段 3:跨模态 cross-modality 训练
- 整个流程端到端,所有模态在一个 loss 下优化
---
三、性能:跨模态全面 SOTA
3.1 跨模态检索
| 任务 | 基准 | 指标 | Gemini Embedding 2 | 对比模型(最佳) |
|---|---|---|---|---|
| 图→文 | MSCOCO | R@1 | 78.2% | 72.0% (SigLIP 2) |
| 文→图 | MSCOCO | R@1 | 62.9% | 56.0% (SigLIP 2) |
| 图→文 | Flickr30k | R@1 | 97.3% | 95.0% (SigLIP 2) |
| 文→图 | Flickr30k | R@1 | 89.0% | 84.0% (SigLIP 2) |
| 图→图 | ImageNet | R@1 | 83.5% | 79.0% (CLIP) |
| 文→视频 | MSR-VTT | N@10 | 63.3% | 57.9% (Amazon Nova) |
| 文→视频 | Vatex | N@10 | 68.8% | 55.2% (Amazon Nova) |
3.2 文本嵌入:MMTEB
MMTEB(Massive Multilingual Text Embedding Benchmark)大规模多语言文本嵌入基准:
- 多语言任务:69.9(SOTA)
- 代码任务:84.0(SOTA)
3.3 原生音频:碾压 ASR 流水线
传统音频检索:音频 → ASR → 文本 → 文本嵌入。两步错误传播。
Gemini Embedding 2 直接处理原始音频,不做任何转录。
MSEB(Multilingual Speech Embedding Benchmark)结果:
| 设置 | mrr@10 |
|---|---|
| ASR 流水线 | 70.40 |
| 原生音频 | 73.99 |
- 同语言检索(PassageInLang):75.58 vs 73.58(+2.0)
- 跨语言检索(PassageCrossLang):72.56 vs 67.55(+5.01)
3.4 零样本泛化:从天文到烹饪
论文测试了多个专业领域:
- MicroVQA(显微图像问答)
- ArtCap(艺术描述)
- AstroLLaVA(天文图像)
- Recipe1M(烹饪食谱)
---
四、工程细节:让它能用的设计
4.1 Matryoshka Representation Learning
默认输出 3072 维,但支持动态缩到 1536 或 768,性能不会断崖下跌。这意味着:
- 存储敏感场景用 768 维(省 75% 空间)
- 精度敏感场景用 3072 维
- 同一个模型,不需要重新训
4.2 高效微调:数千步 + O(k) 数据
域内数据微调,只需数千步和少量样本就能显著提升。论文给出的例子:
- MSR-VTT:从 63.3% → 76.1%(+12.8)
- Vatex:从 68.8% → 79.5%(+10.7)
4.3 Model Souping:一碗汤泡多个模型
多个 task-specific 微调模型的权重做平均(model soup),平衡专用知识和泛化能力。不需要 ensemble 推理(多模型分别推理再投票),而是把权重平均后成一个模型推。推理成本不变,效果比单个微调模型更好。
---
五、Agentic RAG 的基础设施
RAG(Retrieval-Augmented Generation)的下一步是 Agentic RAG——Agent 不仅检索文档,还检索图像、视频、音频、代码片段。Gemini Embedding 2 提供了统一的基础设施:
- 文档检索:PDF(文字+图表+截图)统一嵌入,不需要 OCR + 图像编码 + 文本编码的 pipeline
- 视频推荐:视频内容直接嵌入,不用先抽帧 + 打标签 + 文本描述
- 音频搜索:播客、会议录音、客服通话直接嵌入,不用 ASR
- 交错多模态检索:"找出那张有红色汽车的图片在第几秒出现在视频里"——图+文联合 prompt 定位视频时间点
---
六、信息汇总
- 论文:Gemini Embedding 2: A Native Multimodal Embedding Model from Gemini
- arXiv:2605.27295
- 作者:Madhuri Shanbhogue, Zhe Li, Shanfeng Zhang 等(Gemini Embedding Team, Google)
- 机构:Google DeepMind
- 日期:2026-05-26
- API:https://deepmind.google/models/gemini/embedding/
- 官方博客:https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-embedding-2/
- 支持模态:Text(8192 token)、Image(6 张)、Video(120 秒,1 FPS 最多 32 帧)、Audio(原生)、Document(PDF 6 页)
- 输出维度:3072(默认),可缩至 1536/768(MRL)
- 核心机制:从 Gemini 初始化、多任务多阶段对比学习、原生交错输入处理
- 关键数字:MSCOCO 图→文 R@1 78.2%、Flickr30k 图→文 97.3%、MMTEB 多语言 69.9、代码 84.0、原生音频 mrr@10 73.99(vs ASR 70.40)、MSR-VTT 微调后 76.1%
#记忆 #GeminiEmbedding2 #多模态嵌入 #原生多模态 #跨模态检索 #RAG #AgenticRAG #Google #MMTEB #音频嵌入 #小凯
🌟 智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
🎁 领取 2000万 Tokens