Gemini 3.5 Flash：当"轻量级"开始吊打旗舰——Google用256个微型专家重构了速度的定义

> Google I/O 2026 技术拆解 | 格帕文士 > 发布日期：2026-05-22

一个反常的现象

按照行业惯例，"Pro"是旗舰，"Flash"是轻量版。前者堆参数、后者追速度，各安其位。

但 Gemini 3.5 Flash 打破了这个规矩——它在几乎所有基准测试上超越了前代旗舰 3.1 Pro，同时输出速度还是竞品的 4 倍，价格比 3.1 Pro 便宜 40%。

这不是升级，这是重新定义"轻量级"的含义。

DeepMind 首席科学家 Jeff Dean 的推文揭示了两个关键技术支点：极限知识蒸馏和256 微型专家 MoE。这不是简单的"小模型学大模型"，而是让 Flash 继承了超大模型的"逻辑脑"而非"知识库"。

性能跃迁：数据说话

基准测试	Gemini 3.5 Flash	Gemini 3.1 Pro	提升幅度
GSM8K（数学推理）	95.8%	93.2%	+2.6%
SWE-bench（代码生成）	38.4%	32.1%	+6.3%
Terminal-Bench 2.1	76.2%	70.3%	+5.9%
GDPval-AA Elo	1656	1314	+26%
MCP Atlas（Agent 工具调用）	83.6%	—	新标杆
CharXiv Reasoning（多模态推理）	84.2%	—	领先

数据来源：Google I/O 2026 发布会、DeepMind Technical Report、OSCHINA

轻量模型在完整版 SWE-bench 上超越旗舰 6 个百分点，这在 2025 年是不可想象的。Google 是怎么做到的？

核心技术拆解

1. 极限知识蒸馏：继承"逻辑脑"而非"知识库"

Google 没有公开训练 3.5 Flash 的算力投入，但透露了一个关键信息：使用从未公开的 Gemini 3.5 Ultra 作为教师模型。

Jeff Dean 的推文指出，3.5 Flash 在高质量逻辑链数据集上的微调比例比上一代提升了 400%。

这意味着什么？

传统知识蒸馏让小模型学大模型的"答案"——记住什么情况下该输出什么。但 3.5 Flash 学的是"推理过程"——为什么在这个情况下该输出这个。前者是死记硬背的知识库，后者是可迁移的逻辑脑。

类比一下：一个学生如果只背标准答案，换道题就不会。但如果他学会了老师的推导思路，新题型也能举一反三。

2. 256 微型专家 MoE：从"粗放分工"到"精细协作"

混合专家模型（MoE）不是新技术，但 Google 在 3.5 Flash 里把它推到了新极端：

MoE 配置	传统大型 MoE	Gemini 3.5 Flash
专家数量	8-16 个	256 个
每次激活	1-2 个	4 个
激活参数量占比	~10%	~1.5%

256 个微型专家，每次只激活最高效的 4 个。这意味着：

覆盖更广的特征空间：256 个专家可以各自专攻非常细分的领域（比如一个专门处理递归算法，一个专门处理几何推理）
激活成本极低：虽然总参数量可能依然庞大，但每次推理只用到不到 2%
路由精度要求更高：从 16 选 1 变成 256 选 4，路由网络本身成了一个精密的"调度中枢"

a16z 的 2026 年 AI 基建投资备忘录分析指出，这种细粒度 MoE 是 3.5 Flash 能在极低激活参数量的同时覆盖庞大特征空间的关键。

3. 速度工程：TTFT < 65ms，比眨眼还快

速度指标	Gemini 3.5 Flash	竞品参考
输出速度	289 tokens/秒	Claude Opus 4.7: 67 t/s
TTFT（首字延迟）	< 65ms	人类眨眼: 100-150ms
Antigravity 优化后	12 倍竞品速度	—

65 毫秒的 TTFT 是什么概念？

你眨一次眼需要 100-150 毫秒。也就是说，当你在对话框里按下回车，在你眨完眼之前，3.5 Flash 已经开始输出第一个 token 了。

对于 Agent 工作流——需要频繁调用工具、多轮反思、实时交互的场景——这个延迟级别意味着用户根本感受不到停顿。

背后是 TPU v6 Trillium 的硬件支撑，加上 "Thought Preservation" 智能缓存层——复用之前的推理历史，避免重复计算。

Antigravity 2.0：93 个 Agent、12 小时、1000 美元造一个 OS

3.5 Flash 的真正舞台不是聊天框，而是 Agent 工作流。

Google I/O 的标志性演示：让 Antigravity 2.0 从零构建一个操作系统。

指标	数据
子 Agent 数量	93 个并行
持续时间	12 小时
模型请求次数	15,000+
处理 tokens	26 亿
API 总成本	< $1,000

最戏剧性的一幕：OS 构建完成后运行 DOOM，因缺少键盘驱动失败。演示者用语音对 Antigravity 说"修复键盘驱动"，Agent 自主生成并编译驱动，DOOM 成功运行。

Google 明确表示：这件事在 Gemini 3.1 Pro 上无法完成。

原因不是 3.1 Pro "不够聪明"，而是速度不够快 + Agent 可靠性不够高。93 个并行 Agent 需要极低的单轮延迟，否则整体工作流会被拖垮。3.5 Flash 的 4 倍输出速度 + 65ms TTFT，让这个规模的多 Agent 协作成为可能。

定价策略：比你强，还比你便宜

模型	输入 ($/M tokens)	输出 ($/M tokens)
Gemini 3.5 Flash	$1.50	$9.00
Gemini 3.1 Pro	~$2.50	~$15.00

3.5 Flash 比 3.1 Pro 便宜 40%，同时性能全面超越。

Google 内部的数据更说明问题：今年 3 月，内部开发相关任务每天处理约 5000 亿 tokens，之后每隔几周翻倍，目前已超过每天 3 万亿 tokens。Google 把这称为"反馈循环"——用大规模真实使用持续改进 3.5 Flash。

月活 9 亿的 Gemini App，现在默认底层就是 3.5 Flash。

战略意义：Google 的"端侧落地"统治力

3.5 Flash 的发布不是单一产品更新，而是一整套基础设施的协同：

模型层：3.5 Flash（今天）+ 3.5 Pro（下月）+ Omni Flash（全模态）
平台层：Antigravity 2.0（Agent-first IDE）
硬件层：TPU v6 Trillium
应用层：Gemini App、AI Mode 搜索、Android、Workspace

这是一张从芯片到用户的垂直整合网络。别的公司在某一个点竞争，Google 在全链路优化。

65ms TTFT + 289 tokens/s + 256 专家 MoE + TPU v6，单独看每一项都不是独家技术，但同时做到这四项的，目前只有 Google。

对开发者的实际影响

Thinking Toggle：一个需要注意的细节

3.5 Flash 引入了 Minimal/Medium/High 三档 Thinking 控制，默认是 Medium。

这意味着：如果你把之前 3.x 的 API 调用直接迁移过来，而不显式设置 thinking=high，Agent 可能会悄悄损失一部分推理深度。对于需要复杂多步推理的任务，记得检查这个参数。

什么场景最适合 3.5 Flash？

场景	适合度	原因
Agent 工作流（多工具调用）	⭐⭐⭐⭐⭐	低延迟 + 高可靠性
实时交互应用（语音/聊天）	⭐⭐⭐⭐⭐	TTFT < 65ms
代码生成与调试	⭐⭐⭐⭐⭐	SWE-bench 38.4%
长文档分析（1M 上下文）	⭐⭐⭐⭐	100 万 token 窗口
纯文本创意写作	⭐⭐⭐	Flash 优势在速度，创意深度看 Pro

结语

Gemini 3.5 Flash 证明了这件事：模型的"轻量"和"强大"不再是反义词。

通过极限知识蒸馏继承超大模型的推理能力，通过 256 微型专家 MoE 实现极低激活成本，通过 TPU v6 把延迟压到生理不可感知——Google 不是在做一个更快的模型，而是在做一个能被大规模部署到真实工作流中的智能体引擎。

93 个 Agent、12 小时、1000 美元造一个操作系统。这个数字本身比任何基准测试分数都更有说服力——因为它回答了一个真正重要的问题：

这个东西，能干活吗？

Google 的答案是：能，而且比你想象的便宜和快。

---

参考来源：

Google I/O 2026 官方发布 blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-5
DeepMind Gemini 3.5 Technical Report
Jeff Dean Twitter 技术解析
a16z 2026 AI 基建投资备忘录
OSCHINA / SegmentFault / 虎嗅 / 36氪现场报道
Artificial Analysis 速度基准数据

#Gemini #GoogleIO #AI模型 #Agent #编程助手 #深度解读 #格帕文士