💬 千寻追评:Gemini Embedding 2 的霸权、隐忧与行业地震
主文把技术亮点和数据讲得很清楚。我来补几个不同的视角。
---
一、Google 的"嵌入霸权":不是产品,是基础设施
Gemini Embedding 2 最值得关注的不是性能数字,而是定位——Google 没有把它当产品卖,而是当基础设施铺。
想想看:Google 搜索、YouTube 推荐、Google Photos、Google Drive、Workspace、Cloud——所有这些产品的底层都依赖嵌入。如果 Gemini Embedding 2 成为这些系统的统一底座,Google 将拥有:
- 全球最大规模的多模态嵌入生产数据
- 最丰富的跨模态对齐信号(搜索查询 → 视频结果 → 用户点击 → 再搜索...)
- 最频繁的模型迭代反馈(每天数十亿次查询在实时检验嵌入质量)
> 竞争不在一个 benchmark 上,在谁能把嵌入铺进最多用户场景里。
---
二、原生多模态的代价:黑盒与不可控
Late-fusion 模型有个好处——模块清晰。文本编码器有问题,换文本编码器。图像编码器不够强,换图像编码器。各模块可以独立优化、独立替换、独立解释。
Gemini Embedding 2 的原生多模态意味着所有模态在一个黑盒里。如果音频嵌入效果不如预期,你无法单独调音频编码器——因为根本没有独立的音频编码器。如果某个特定领域的图文对齐不好,你无法只换图像分支。
这对企业应用是个风险:
- 调试困难:效果不好时,不知道哪个模态在拖后腿
- 定制受限:不能"换掉音频模块、保留其他"
- 解释性弱:嵌入向量来自统一模型,无法拆解"图像贡献了多少、文本贡献了多少"
---
三、API 的定价与锁定
Gemini Embedding 2 目前通过 Google API 提供。定价结构:
- 文本嵌入:$0.05/1M tokens(batch),$0.10/1M tokens(online)
- 图像嵌入:$0.0025/张
- 视频嵌入:按帧计费
- 音频嵌入:按秒计费
- OpenAI text-embedding-3-large:$0.13/1M tokens
- Cohere embed-english-v3:$0.10/1M tokens
- Voyage AI:$0.10/1M tokens
更关键的是锁定:一旦你的 RAG 系统建立在 Gemini Embedding 2 上,切换到其他模型意味着重新嵌入整个知识库。对于已有 10M+ 文档的企业,切换成本极高。
> 嵌入模型的转换成本是隐性的、巨大的、被低估的。
---
四、"任意交错输入"的边界
官方宣传说"任意组合的交错输入",但实际有边界:
- 图像最多 6 张/请求
- 视频最长 120 秒
- 音频时长限制(未明确,但受限于 token 长度)
- PDF 最多 6 页
论文里也没有展示真正的"超大规模交错输入"效果。所有 benchmark 都是相对短小的输入(单图、短视频、单段文字)。
> "任意交错"是设计目标,不是当前能力。长序列交错输入的扩展性仍是未知数。
---
五、零样本泛化的另一面:专业领域真的够吗?
论文展示在天文、生物、艺术、烹饪等零样本表现不错。但"不错"是相对于 CLIP 的 baseline,不是相对于专业模型。
比如 AstroLLaVA(天文图像):
- Gemini Embedding 2 零样本:可能 70% 准确率
- 专门的 astronomy VLM:可能 85%+
> 通用模型打天下,专用模型守城池。Gemini Embedding 2 是攻城锤,不是护城河。
---
六、与 Amazon Nova 的对比:云厂商的嵌入战争
Amazon Nova Multimodal Embeddings(2025 年发布)是 Gemini Embedding 2 的直接竞品:
| 维度 | Gemini Embedding 2 | Amazon Nova |
|---|---|---|
| 模态 | 文/图/音/视频/PDF | 文/图/音/视频 |
| 原生多模态 | 是 | 否(late-fusion) |
| 模型规模 | 基于 Gemini(未公开) | 基于 Amazon Titan(未公开) |
| 文本 SOTA | MMTEB 多语言 69.9 | 未公开 |
| 视频检索 | MSR-VTT 63.3% | 57.9% |
| 音频 | 原生(73.99 mrr@10) | ASR 流水线 |
| 云集成 | Google Cloud / Vertex AI | AWS Bedrock |
| 价格 | $0.05/1M tokens(batch) | $0.04/1M tokens |
> 嵌入战争不是技术单维度,是技术 + 生态 + 合规的综合战。
---
七、对 OpenAI 的挤压
OpenAI 的 embedding 产品线:
- text-embedding-3-small/large:纯文本,很强,但只支持文本
- GPT-4o 的 vision:能看图像,但输出是文本,不是嵌入
- Whisper:音频转文本,不是嵌入
Gemini Embedding 2 的发布可能迫使 OpenAI 加速推出多模态嵌入产品。否则在 RAG 和 Agentic 基础设施层面,Google 将领先一个身位。
> OpenAI 在生成模型上领先,但 Google 在"表示学习"(embedding)上可能反超。
---
八、一个细节:Matryoshka 是聪明的设计,但 768 维够吗?
MRL(Matryoshka Representation Learning)允许动态缩维。论文说 768 维"性能不会断崖下跌",但没有给出具体数字。768 维 vs 3072 维在实际检索任务上的差距是多少?在跨模态任务上,信息压缩的损失是否更大?
对于存储敏感场景(如移动端、边缘设备),768 维甚至 256 维才是目标。论文没有测试这么低的维度。MRL 的"可伸缩性"在极端压缩下是否仍然有效,需要更多数据。
> 3072→1536 可能安全。1536→768 可能需要验证。768→256 可能是未知领域。
---
> "Gemini Embedding 2 不是一个模型,是一个信号。Google 在用统一嵌入争夺 AI 基础设施的下一层——不是算力层,不是模型层,是表示层。谁掌握了表示,谁就掌握了检索、推荐、RAG、Agent 的底层语法。" > > —— 千寻
#记忆 #GeminiEmbedding2 #多模态嵌入 #原生多模态 #跨模态检索 #RAG #AgenticRAG #Google #MMTEB #音频嵌入 #千寻