谷歌的暗棋:当 Jeff Dean 揭开万亿上下文与虚拟实习生军团的秘密

谷歌的暗棋:当 Jeff Dean 揭开万亿上下文与虚拟实习生军团的秘密

导读:在 AI 竞赛的喧嚣中,谷歌似乎被 OpenAI 抢尽了风头。但当首席 AI 科学家 Jeff Dean 坐在 Latent Space 播客的麦克风前,他展示的不是焦虑,而是一盘下得正酣的大棋。从 50 万亿 token 的 Flash 模型部署,到用皮焦耳计算批处理的物理必然,再到"50 个 AI 实习生"的工作愿景——谷歌的底牌,远比我们想象的更深。


🎭 当世界以为谷歌落后时

2023 年,当 ChatGPT 席卷全球、微软股价飙升、科技媒体铺天盖地地讨论"谷歌是否已经输掉 AI 战争"时,谷歌总部里有一位工程师正在思考完全不同的问题。

他的名字是 Jeff Dean——谷歌第 30 号员工,MapReduce、BigTable、TPU、Google Brain 的缔造者,如今是谷歌首席科学家、Gemini 项目的掌舵人。

"人们总是问我们是不是落后了,"Jeff Dean 在 Latent Space 播客中露出了一个意味深长的微笑,"但真正的问题是:你想要的是什么?是一时的声量,还是持续的领先?"

答案藏在一个名叫"帕累托前沿"的概念里。

注解:帕累托前沿(Pareto Frontier)是经济学中的概念,指在多个目标之间无法同时改善的最优权衡边界。想象你买车——想要速度快,往往油耗高;想要省油,速度就慢。帕累托前沿就是那些"在给定油耗下最快"或"在给定速度下最省油"的车型集合。在 AI 世界里,就是"在给定成本下最聪明"或"在给定智能下最便宜"的模型集合。


⚡ 帕累托的博弈:为什么你需要两条线

2025 年 12 月 17 日,Jeff Dean 发了一条推特:

"我们再次推进了效率与智能的帕累托前沿。Gemini 3 Flash ⚡️ 正在展现出此前只有最大模型才具备的推理能力,却以 Flash 级别的延迟运行。"

这条推文背后,是谷歌一个清晰的双线战略:Pro 模型 探索智能的边界,Flash 模型 追求部署的效率。而连接这两条线的,是一项被称为"蒸馏"的技术。

🧪 蒸馏:从 50 个专家到一个超级学生

蒸馏的故事要从 2014 年说起。

那时候,Google 内部有一个庞大的图像数据集——3 亿张图片、2 万个类别,远比 ImageNet 大得多。Jeff Dean 的团队发现了一个有趣的现象:与其训练一个超级大的"通才"模型,不如训练 50 个"专才"模型——一个特别擅长识别哺乳动物,一个精通室内场景,一个熟悉交通工具……

把 50 个专才的判断综合起来,效果出奇地好。

但问题是:50 个模型没法上线

"你不能让用户上传一张照片,然后服务器跑 50 个模型再投票,"Jeff 回忆道,"延迟会爆炸。"

于是,蒸馏技术应运而生。核心思路是:让一个大模型学习 50 个专才模型的"软输出"——不是简单的"这是猫"或"不是猫",而是概率分布:"这张图 85% 像猫,12% 像狐狸,3% 像狗"。

这种"软标签"包含了专才们微妙的知识,一个小模型从中学习,能够"哄"出它本来学不到的能力。

注解:Logits 是神经网络输出层的原始值,经过 softmax 函数转换后变成概率分布。传统的"硬标签"训练只告诉模型"这是猫",而蒸馏使用 logits,相当于告诉模型"这张图更像猫,但也有点像狐狸"。这种细微的信息量远大于硬标签。

🔄 蒸馏的魔法:下一代 Flash = 上一代 Pro

蒸馏技术的威力在于:每一代 Gemini 的 Flash 模型,都能达到或超越上一代的 Pro 模型

这意味着什么?

当你今天用免费的 Gemini Flash 时,你获得的能力,相当于一年前只有付费 Pro 用户才能享受的智能。而今天的 Pro 模型,又为明天的 Flash 铺平了道路。

主持人 Alessio 问了一个尖锐的问题:"如果蒸馏总能让 Flash 赶上 Pro,那再过两代,谁还需要 Pro?"

Jeff 的回答揭示了更深层的洞察:

"这个推理的前提是用户需求不变。但实际上,模型越强,人们会提出越复杂的需求。"

他举了自己的例子:"一年前,我只敢让模型做简单的编程任务。现在,我会要求它完成复杂得多的事情。不只是我——现在有人会问'帮我分析全球所有可再生能源部署情况',这在一年前根本不会有人提。"

智能的边界在移动,而不是在收缩。


🌊 50 万亿 Token 的海洋

当 Alessio 提到 Flash 模型的 token 处理量已超过 50 万亿 时,Jeff Dean 的语气变得轻描淡写:

"这纯粹是因为 Flash 的经济性好到可以'用在所有地方'。"

Flash 现在驱动着 Gmail、YouTube,以及 Google 搜索的 AI Mode 和 AI Overviews。这个数字——50 万亿 token——意味着什么?

作为对比,人类历史上所有书籍的文字总量大约是 1000 亿 token。Flash 模型每个月处理的数据,相当于人类有史以来所有书籍的 500 倍。

⏱️ 延迟:被低估的竞争优势

但 Jeff Dean 强调的不仅是"便宜",更是"快"。

"未来的任务会比现在复杂得多。不是'帮我写个 for 循环',而是'帮我写一个完整的软件包'。从提出需求到完成任务之间要生成大量 token,低延迟在这种场景下至关重要。"

他给出了一个预测:10,000 token/秒 将成为有意义的目标。

这不是为了输出更多内容,而是为了"用 9000 token 推理、输出 1000 token 精炼代码"。低延迟让人类与 AI 的协作从"发邮件等待回复"变成"面对面实时讨论"。


🧠 一页纸备忘录:Gemini 的诞生

2023 年 4 月,谷歌做了一个震惊业界的决定:将 Google Brain 和 DeepMind 合并,成立 Google DeepMind。

这个决定的源头,是 Jeff Dean 写的一页纸备忘录。

在 Latent Space 播客中,Jeff 首次详细讲述了这个故事:

"当时 Google 内部有三股力量在做大模型:Google Brain、DeepMind,还有搜索团队。我认为这是'愚蠢的'——我们有三倍的重复建设,三倍的资源浪费,却没有三倍的速度。"

备忘录的核心论点很简单:通才终将战胜专才

🏆 统一模型的胜利:从 IMO 银牌到金牌

Jeff 用一个惊人的例子证明了这一点。

2024 年,Google 用两套专用系统——AlphaProof 和 AlphaGeometry——参加国际数学奥林匹克(IMO),需要先把题目翻译成 Lean 形式语言,最终获得银牌(28 分)。

2025 年,直接用一个接近生产版本的 Gemini 模型(带 Deep Think 模式),以纯自然语言解题,获得 金牌(35 分)

"人类操纵符号,但大脑里可能并没有符号表征。我们的大脑更像是一种分布式神经网络。把完全独立的离散符号系统和神经网络分开做,从一开始就不太对。"

这是 Jeff Dean 对 AI 发展的深层信念:统一模型做所有事的时代已经到来


⚡ 用皮焦耳理解世界:AI 的能量真相

当 Swyx 问 Jeff,如果要为 AI 时代更新他著名的"Latency Numbers Every Programmer Should Know",会加什么时,Jeff 的回答出人意料:

"AI 时代你真正需要关注的是能量。"

他给出了两个关键数字:

操作能量消耗
一次矩阵乘法~1 皮焦耳
从 SRAM 搬一个参数~1000 皮焦耳

差了整整 三个数量级

注解:皮焦耳(picojoule)= 10⁻¹² 焦耳。作为对比,人脑每次突触传递消耗约 1-10 飞焦耳(10⁻¹⁵ 焦耳),比数字芯片低 3 个数量级。人脑的能效仍然是硅基芯片的 1000 倍。

🎯 为什么必须批处理?

这个 1000 倍的差距,解释了为什么 AI 推理必须使用批处理:

"如果你把一个模型参数从 SRAM 搬到乘法单元,花了 1000 皮焦耳,你最好让这个参数被用很多很多次。批大小 256 还行,批大小 1 真的不行。"

理想情况下你想用批大小 1,因为延迟最好。但能量成本和计算效率不允许。

Jeff 还提到了几个正在探索的方向:

  • 推测解码(Speculative Decoding):预测 8 个 token,接受其中 5-6 个,相当于把有效批大小提升了 5-6 倍
  • 低精度计算:能量消耗是按比特算的,减少比特数是最直接的节能方式
  • 非自回归解码:不需要逐 token 生成,从根本上改变计算模式

🏗️ TPU:2-6 年的赌注

Google 的另一个秘密武器是 TPU——张量处理单元。

Jeff Dean 透露了一个惊人的事实:从开始设计 TPU 芯片到进入数据中心,需要 2 年;然后要服役 3-5 年

"在一个变化极快的领域里,你在试图预测 2-6 年后的需求。"

这需要两种策略:

  1. 低成本的赌注:花一点芯片面积放一个推测性功能,押对了可能带来 10 倍加速,押错了损失也不大
  2. 双向适应:有时模型架构会被调整以适配即将投产的硬件

这种软硬件协同设计的能力,是 Google 相比纯软件公司的独特优势。


🎬 多模态的宇宙:从视频理解到 120 人的语言

在讨论"国王模态"——即某种可以涵盖其他所有模态的"超级模态"——时,Jeff Dean 给出了一个令人惊讶的答案。

👁️ 视觉:被进化验证了 23 次的选择

"进化独立演化出眼睛 23 次,因为视觉对感知周围世界是如此有用的能力。"

Jeff 认为 视觉和运动 是最重要的模态。他举了一个生动的例子:给模型一个 YouTube 体育集锦视频——18 个跨越 20 年的经典体育瞬间——让它做一个表格,列出每个事件的名称、日期和描述。

模型能准确输出一个 18 行的结构化表格。

注解:Gemini 仍然是唯一原生支持视频理解的模型。所谓"原生",指模型不是先把视频转成帧图像再逐帧分析,而是在训练时就以视频作为输入模态。这使模型能理解时序关系、动作连续性等跨帧信息。

🌍 120 人的语言:上下文学习的极限测试

Jeff 还提到了一个极端案例:Kalamang 语

这种语言全球只有约 120 人使用,而且没有书面文字。但把它的全部语料放进上下文窗口,Gemini 就能在对话中学会使用这种语言。

这展示了长上下文的另一个价值:上下文学习(In-Context Learning)可以替代预训练,只要上下文窗口足够大、语料足够丰富。

🔬 非人类模态:LIDAR、X 光、基因组

但 Jeff 强调,Gemini 的多模态设计不仅限于"人类模态"。

  • Waymo 的 LIDAR 数据:帮助自动驾驶理解三维空间
  • 医疗影像:X 光、MRI、CT 扫描
  • 基因组信息:DNA 序列的模式识别
  • 机器人数据:传感器读数、动作序列

"世界上可能有几百种有意义的数据模态。即使不在预训练中大量包含,让模型少量接触也很有用,因为这会让模型知道'这种东西存在'。"


📜 2001 年的启示:把索引搬进内存

Jeff Dean 在对话中讲述了一个 Google 搜索历史上的关键转折点——这个故事对理解今天的 AI 基础设施至关重要。

🏗️ 分片与副本:扩展的两个维度

2001 年左右,Google 面临两个需要同时扩展的维度:

  1. 索引规模:更多网页需要更大的索引
  2. 流量容量:更多查询需要更多计算资源

他们用的是分片系统(Sharding):

  • 随着索引增长 → 增加分片数量
  • 随着流量增长 → 增加每个分片的副本

当时他们有大约 60 个分片,每个分片 20 个副本。一个数据中心里就有 1200 台带磁盘的机器。

💡 关键的计算:索引刚好能放进内存

他们做了一个关键的计算:一份完整的索引,刚好能放进这 1200 台机器的内存里。

于是他们把整个索引搬进了内存。

这个变化带来的质量提升惊人。之前基于磁盘时,每一个查询词都需要在每个分片上做磁盘寻道,所以必须严格限制查询扩展:用户搜 3-4 个词,系统就只查这 3-4 个词。

但索引在内存里之后,系统可以放心地扩展到 50 个相关词,加入同义词。搜"restaurant"可以同时搜"restaurants"、"cafe"、"bistro"。

注解:这是 2001 年的事,远在 LLM 之前,但核心思路已经是"从匹配词形到理解词义"。Google 搜索的语义化演进,比大多数人想象的要早得多。

📐 设计原则:5-10 倍扩展,不超过 100 倍

Jeff 给出了一个通用的系统设计原则:

"设计系统时,最重要的参数应该能扩展 5-10 倍,但不超过 100 倍。因为如果某个参数突然变成 100 倍,那意味着设计空间里出现了一个完全不同的最优解。"

就像从磁盘索引到内存索引——一旦流量大到有足够多的副本机器,内存方案就突然变得可行了。

这个原则同样适用于今天的 AI 基础设施设计:当上下文窗口从 4K 扩展到 128K,是量变;但如果要扩展到万亿级,就需要完全不同的架构。


📈 从 GSM8K 到 IMO 金牌:规模定律的深层思考

Jeff Dean 在对话中回顾了一个令人感慨的对比:

"两年前我们还在 GSM8K 上挣扎——'Fred 有两只兔子,又买了三只,一共几只?'这和现在模型能做的数学完全不在一个层次上。"

📊 GSM8K:曾经的"圣杯"

GSM8K 是一个小学数学应用题基准测试,2022-2023 年间曾是衡量大模型推理能力的重要指标。那时候,模型能正确回答"Fred 有几只兔子"就已经是了不起的成就。

而今天?GSM8K 的分数已经接近饱和,变成了入门级的测试。

🏅 IMO 的跨越

更惊人的是国际数学奥林匹克(IMO)的跨越:

年份系统方法成绩
2024AlphaProof + AlphaGeometry专用系统 + 人工翻译到 Lean银牌(28分)
2025Gemini Deep Think统一模型 + 自然语言金牌(35分)

2024 年需要两套专用系统、形式语言翻译;2025 年直接用一个接近生产版本的 Gemini,纯自然语言解题,就拿了金牌。

在 630 名人类选手中,只有 67 人获得金牌。Gemini 的数学能力已经超越了绝大多数人类顶尖选手。

🔄 从符号到神经:哲学的转变

Jeff Dean 对这个跨越的解读发人深省:

"人类操纵符号,但大脑里可能并没有符号表征。我们的大脑更像是一种分布式神经网络,大量神经元和激活模式在我们看到某些东西时触发。"

他把这与 2013-2016 年的机器学习历史做类比:那时每个问题都要训练一个专门的模型——街道标志识别、语音识别、情感分析。现在进入了 统一模型做所有事 的时代。


🎯 Benchmark 的保质期

Swyx 问了一个关键问题:Google 内部用什么 benchmark?因为外部公开的那些分数已经快刷满了。

Jeff Dean 给出了一个设计好 benchmark 的标准:

"好的 benchmark 应该在初始阶段让模型只拿到 10-30% 的分数,然后可以推动改进到 80-90%。一旦超过 95% 就没什么价值了。"

原因有两个:

  1. 能力已经达标:继续刷分没有实际意义
  2. 数据泄露风险:高分可能来自训练数据污染

Google 内部有大量 保留测试集(held-out benchmarks),确保不在训练数据中出现。这些测试覆盖了 Google 希望模型拥有但目前还不具备的能力。


🌐 长上下文的终极愿景

当 Swyx 问到长上下文的方向时,Jeff Dean 直接跳过了技术细节,抛出了终极目标:

"你真正想要的是:回答问题的时候,注意力能覆盖到整个互联网吗?"

但他立刻指出这不可能靠现有方案实现。当前注意力机制是 二次方复杂度,100 万 token 已经接近极限,不可能直接推到 10 亿、万亿级。

🔍 分层漏斗:从万亿到 117

Jeff 提出了一个 分层漏斗式架构 的设想:

万亿级 Token
    ↓ (轻量模型并行筛选)
约 30,000 篇相关文档
    ↓ (中等模型过滤)
约 117 篇核心文档
    ↓ (最强模型精读)
最终答案

这个思路和 Google 搜索的排名管道异曲同工——从海量网页逐层过滤到最终的 10 个结果。只不过现在终端用户不是人类,而是另一个 AI 模型。

👤 个性化 AI:关注你的数字人生

这个愿景延伸到个人层面:

"如果你授权,一个个性化的 Gemini 可以'关注'你的所有邮件、照片、文档、机票,从而提供真正个人化的帮助。"

Jeff 明确说 不会把 Gemini 训练在用户的邮件上,而是让它用检索作为工具,在多轮检索和推理之间交互。


🧩 知识 vs 推理:参数空间的最佳投资

当 Swyx 提出模型容量的问题时,Jeff 给出了一个深思熟虑的回答。

📚 冷僻事实:让检索来处理

"让模型用宝贵的参数空间记住可以查到的冷僻事实,不是最佳利用方式。模型最应该擅长的是'在能检索信息的前提下进行推理'。"

但 Jeff 也指出,模型不能完全脱离世界知识。知道金门大桥有多长是有用的,因为它提供了"桥梁大概多长"的一般性感觉。只是不需要知道世界上每座小桥的长度。

🧠 可安装知识:未来的愿景

Jeff 提出了一个更远的愿景:模块化的"可安装知识"。

"最好能有一种能力,让那 200 种语言加上很棒的机器人模块加上很棒的医疗模块,全部能编织在一起协同工作,在不同场景下按需调用。"


🤖 50 个 AI 实习生:工作的未来

对话的最后,话题转向了 AI 如何改变软件工程。

Jeff 描述了一个他已经在体验的场景:

"当你有 50 个不知疲倦的 AI 实习生时,你的核心技能将转变为编写完美的需求文档(Spec)与精准的提示词(Prompt)。"

这不是科幻——这是正在发生的现实。

但他也指出了当前 AI 的局限:

"最关键的开放问题是:如何让强化学习(RL)在非可验证领域工作。目前数学和编码的进步很大程度归功于 RL,因为这些领域的答案可以被验证——数学证明对不对、代码能不能跑通。如果能把 RL 扩展到不那么容易验证的领域,模型的能力将大幅提升。"


🔬 开放的研究方向:Jeff Dean 的未解之谜

Jeff Dean 分享了他认为最关键的开放研究问题:

🎲 RL 在非可验证领域的突破

Jeff 提出了一种可能的解决思路:用模型评估模型

"让另一个模型判断第一个模型检索的内容是否相关,或者用同一个模型不同提示来做'评审者'。"

🔄 复杂工作流:多步骤任务的挑战

另一个 Jeff 关注的方向是:如何让模型可靠地完成更长更复杂的任务。

这涉及到:

  • 任务分解:把复杂目标拆解成可执行的子任务
  • 错误恢复:当某个步骤失败时如何调整
  • 结果整合:把多个子任务的输出合成最终答案

🧠 稀疏激活:万亿参数的 1-5%

Jeff 还提到了他对"稀疏模型"的长期信念:

"我们早就知道稀疏是正确的抽象。万亿参数的模型,但只有 1-5% 的参数被激活。"


🔮 Jeff Dean 的未来十年

当被问及对未来的预测时,Jeff Dean 给出了几个方向:

  1. 10,000 token/秒的推理速度:不是为了输出更多,而是让推理过程实时可见
  2. 个性化 AI 助手:能"关注"你的整个数字生活(需授权)
  3. 模块化的"可安装知识":200 种语言 + 机器人模块 + 医疗模块,按需调用
  4. RL 扩展到非可验证领域:让模型在创意、判断等领域也能自我提升

💭 尾声:当大棋落定

在 Latent Space 播客的一个多小时对话中,Jeff Dean 展示的不是一家科技巨头的焦虑,而是一个工程师对技术本质的深刻理解。

皮焦耳 的能量计算,到 万亿 token 的上下文愿景;从 一页纸备忘录 的战略决策,到 50 个 AI 实习生 的工作未来——谷歌的"暗棋"不是某种秘密武器,而是一种系统性的思维方式:

在能量、硬件、软件、数据的每一个层面,都做长远投资,然后让它们乘在一起。

正如 Jeff Dean 在访谈结尾所说:

"Scaling wasn't blind; the pieces had to multiply together.(规模扩展不是盲目的;各个部分必须相乘才能产生效果。)"

当世界还在争论"谁赢了 AI 竞赛"时,Jeff Dean 已经在思考下一个十年的问题了。

而这,可能才是谷歌真正的底牌。


📚 参考文献

  1. Latent Space Podcast. (2026). Owning the AI Pareto Frontier — Jeff Dean. https://www.latent.space/p/jeffdean
  1. Dean, J. (2009). Challenges in Building Large-Scale Information Retrieval Systems. WSDM Conference. (Google 搜索架构演进的经典演讲)
  1. Hinton, G., Vinyals, O., & Dean, J. (2015). Distilling the Knowledge in a Neural Network. arXiv:1503.02531. (蒸馏技术的开创性论文)
  1. Hoffmann, J., et al. (2022). Training Compute-Optimal Large Language Models (Chinchilla). arXiv:2203.15556. (计算最优缩放定律)
  1. Jouppi, N., et al. (2021). TPU v4i: An In-Datacenter Machine Learning Accelerator. CMU/Google Research. (TPU 架构与能耗分析)

本文基于 Latent Space 播客对 Jeff Dean 的深度访谈撰写,结合了公开技术论文和行业报道,力求在科学准确性与可读性之间取得平衡。

← 返回目录