> **导读**:在 AI 竞赛的喧嚣中,谷歌似乎被 OpenAI 抢尽了风头。但当首席 AI 科学家 Jeff Dean 坐在 Latent Space 播客的麦克风前,他展示的不是焦虑,而是一盘下得正酣的大棋。从 50 万亿 token 的 Flash 模型部署,到用皮焦耳计算批处理的物理必然,再到"50 个 AI 实习生"的工作愿景——谷歌的底牌,远比我们想象的更深。
---
## 🎭 当世界以为谷歌落后时
2023 年,当 ChatGPT 席卷全球、微软股价飙升、科技媒体铺天盖地地讨论"谷歌是否已经输掉 AI 战争"时,谷歌总部里有一位工程师正在思考完全不同的问题。
他的名字是 Jeff Dean——谷歌第 30 号员工,MapReduce、BigTable、TPU、Google Brain 的缔造者,如今是谷歌首席科学家、Gemini 项目的掌舵人。
"人们总是问我们是不是落后了,"Jeff Dean 在 Latent Space 播客中露出了一个意味深长的微笑,"但真正的问题是:你想要的是什么?是一时的声量,还是持续的领先?"
答案藏在一个名叫"帕累托前沿"的概念里。
> **注解**:帕累托前沿(Pareto Frontier)是经济学中的概念,指在多个目标之间无法同时改善的最优权衡边界。在 AI 世界里,就是"在给定成本下最聪明"或"在给定智能下最便宜"的模型集合。
---
## ⚡ 帕累托的博弈:为什么你需要两条线
2025 年 12 月 17 日,Jeff Dean 发了一条推特:
> "我们再次推进了效率与智能的帕累托前沿。Gemini 3 Flash ⚡️ 正在展现出此前只有最大模型才具备的推理能力,却以 Flash 级别的延迟运行。"
这条推文背后,是谷歌一个清晰的双线战略:**Pro 模型** 探索智能的边界,**Flash 模型** 追求部署的效率。而连接这两条线的,是一项被称为"蒸馏"的技术。
### 🧪 蒸馏:从 50 个专家到一个超级学生
蒸馏的故事要从 2014 年说起。那时候,Google 内部有一个庞大的图像数据集——3 亿张图片、2 万个类别。Jeff Dean 的团队发现:与其训练一个超级大的"通才"模型,不如训练 50 个"专才"模型。
把 50 个专才的判断综合起来,效果出奇地好。但问题是:**50 个模型没法上线**。
"你不能让用户上传一张照片,然后服务器跑 50 个模型再投票,"Jeff 回忆道,"延迟会爆炸。"
于是,蒸馏技术应运而生。核心思路是:让一个大模型学习 50 个专才模型的"软输出"——不是简单的"这是猫"或"不是猫",而是概率分布。
> **注解**:Logits 是神经网络输出层的原始值。传统的"硬标签"训练只告诉模型"这是猫",而蒸馏使用 logits,相当于告诉模型"这张图更像猫,但也有点像狐狸"。这种细微的信息量远大于硬标签。
### 🔄 蒸馏的魔法:下一代 Flash = 上一代 Pro
蒸馏技术的威力在于:**每一代 Gemini 的 Flash 模型,都能达到或超越上一代的 Pro 模型**。
主持人 Alessio 问了一个尖锐的问题:"如果蒸馏总能让 Flash 赶上 Pro,那再过两代,谁还需要 Pro?"
Jeff 的回答揭示了更深层的洞察:
> "这个推理的前提是用户需求不变。但实际上,模型越强,人们会提出越复杂的需求。"
**智能的边界在移动,而不是在收缩。**
---
## 🌊 50 万亿 Token 的海洋
Flash 模型的 token 处理量已超过 **50 万亿**。作为对比,人类历史上所有书籍的文字总量大约是 1000 亿 token。Flash 模型每个月处理的数据,相当于人类有史以来所有书籍的 500 倍。
### ⏱️ 延迟:被低估的竞争优势
Jeff Dean 给出了一个预测:**10,000 token/秒** 将成为有意义的目标。
这不是为了输出更多内容,而是为了"用 9000 token 推理、输出 1000 token 精炼代码"。低延迟让人类与 AI 的协作从"发邮件等待回复"变成"面对面实时讨论"。
---
## 🧠 一页纸备忘录:Gemini 的诞生
2023 年 4 月,谷歌将 Google Brain 和 DeepMind 合并,成立 Google DeepMind。这个决定的源头,是 Jeff Dean 写的一页纸备忘录。
> "当时 Google 内部有三股力量在做大模型:Google Brain、DeepMind,还有搜索团队。我认为这是'愚蠢的'——我们有三倍的重复建设,三倍的资源浪费,却没有三倍的速度。"
备忘录的核心论点很简单:**通才终将战胜专才**。
### 🏆 统一模型的胜利:从 IMO 银牌到金牌
2024 年,Google 用两套专用系统参加国际数学奥林匹克(IMO),获得银牌(28 分)。2025 年,直接用一个接近生产版本的 Gemini 模型,以纯自然语言解题,获得 **金牌(35 分)**。
> "人类操纵符号,但大脑里可能并没有符号表征。我们的大脑更像是一种分布式神经网络。"
---
## ⚡ 用皮焦耳理解世界:AI 的能量真相
Jeff 给出了两个关键数字:
| 操作 | 能量消耗 |
|------|----------|
| 一次矩阵乘法 | ~1 皮焦耳 |
| 从 SRAM 搬一个参数 | ~1000 皮焦耳 |
差了整整 **三个数量级**。
> "如果你把一个模型参数从 SRAM 搬到乘法单元,花了 1000 皮焦耳,你最好让这个参数被用很多很多次。批大小 256 还行,批大小 1 真的不行。"
---
## 🏗️ TPU:2-6 年的赌注
从开始设计 TPU 芯片到进入数据中心,需要 **2 年**;然后要服役 **3-5 年**。
> "在一个变化极快的领域里,你在试图预测 2-6 年后的需求。"
这种软硬件协同设计的能力,是 Google 相比纯软件公司的独特优势。
---
## 🎬 多模态的宇宙
### 👁️ 视觉:被进化验证了 23 次的选择
> "进化独立演化出眼睛 23 次,因为视觉对感知周围世界是如此有用的能力。"
### 🌍 120 人的语言:上下文学习的极限测试
**Kalamang 语** 全球只有约 120 人使用,而且没有书面文字。但把它的全部语料放进上下文窗口,Gemini 就能在对话中学会使用这种语言。
---
## 🌐 长上下文的终极愿景
> "你真正想要的是:**回答问题的时候,注意力能覆盖到整个互联网吗?**"
Jeff 提出了一个 **分层漏斗式架构** 的设想:
```
万亿级 Token → 30,000 篇相关文档 → 117 篇核心文档 → 最终答案
```
这个思路和 Google 搜索的排名管道异曲同工。
---
## 🤖 50 个 AI 实习生:工作的未来
> "当你有 50 个不知疲倦的 AI 实习生时,你的核心技能将转变为**编写完美的需求文档(Spec)与精准的提示词(Prompt)**。"
---
## 💭 尾声:当大棋落定
谷歌的"暗棋"不是某种秘密武器,而是一种系统性的思维方式:
**在能量、硬件、软件、数据的每一个层面,都做长远投资,然后让它们乘在一起。**
正如 Jeff Dean 在访谈结尾所说:
> "Scaling wasn't blind; the pieces had to multiply together.(规模扩展不是盲目的;各个部分必须相乘才能产生效果。)"
---
## 📚 参考文献
1. **Latent Space Podcast.** (2026). *Owning the AI Pareto Frontier — Jeff Dean*. https://www.latent.space/p/jeffdean
2. **Hinton, G., Vinyals, O., & Dean, J.** (2015). *Distilling the Knowledge in a Neural Network*. arXiv:1503.02531.
3. **Hoffmann, J., et al.** (2022). *Training Compute-Optimal Large Language Models* (Chinchilla). arXiv:2203.15556.
4. **Jouppi, N., et al.** (2021). *TPU v4i: An In-Datacenter Machine Learning Accelerator*. CMU/Google Research.
5. **Dean, J.** (2009). *Challenges in Building Large-Scale Information Retrieval Systems*. WSDM Conference.
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!