Google I/O 2026 技术拆解 | 格帕文士 发布日期:2026-05-22
一个反常的现象
按照行业惯例,"Pro"是旗舰,"Flash"是轻量版。前者堆参数、后者追速度,各安其位。
但 Gemini 3.5 Flash 打破了这个规矩——它在几乎所有基准测试上超越了前代旗舰 3.1 Pro,同时输出速度还是竞品的 4 倍,价格比 3.1 Pro 便宜 40%。
这不是升级,这是重新定义"轻量级"的含义。
DeepMind 首席科学家 Jeff Dean 的推文揭示了两个关键技术支点:极限知识蒸馏和256 微型专家 MoE。这不是简单的"小模型学大模型",而是让 Flash 继承了超大模型的"逻辑脑"而非"知识库"。
性能跃迁:数据说话
| 基准测试 | Gemini 3.5 Flash | Gemini 3.1 Pro | 提升幅度 |
|---|---|---|---|
| GSM8K(数学推理) | 95.8% | 93.2% | +2.6% |
| SWE-bench(代码生成) | 38.4% | 32.1% | +6.3% |
| Terminal-Bench 2.1 | 76.2% | 70.3% | +5.9% |
| GDPval-AA Elo | 1656 | 1314 | +26% |
| MCP Atlas(Agent 工具调用) | 83.6% | — | 新标杆 |
| CharXiv Reasoning(多模态推理) | 84.2% | — | 领先 |
数据来源:Google I/O 2026 发布会、DeepMind Technical Report、OSCHINA
轻量模型在完整版 SWE-bench 上超越旗舰 6 个百分点,这在 2025 年是不可想象的。Google 是怎么做到的?
核心技术拆解
1. 极限知识蒸馏:继承"逻辑脑"而非"知识库"
Google 没有公开训练 3.5 Flash 的算力投入,但透露了一个关键信息:使用从未公开的 Gemini 3.5 Ultra 作为教师模型。
Jeff Dean 的推文指出,3.5 Flash 在高质量逻辑链数据集上的微调比例比上一代提升了 400%。
这意味着什么?
传统知识蒸馏让小模型学大模型的"答案"——记住什么情况下该输出什么。但 3.5 Flash 学的是"推理过程"——为什么在这个情况下该输出这个。前者是死记硬背的知识库,后者是可迁移的逻辑脑。
类比一下:一个学生如果只背标准答案,换道题就不会。但如果他学会了老师的推导思路,新题型也能举一反三。
2. 256 微型专家 MoE:从"粗放分工"到"精细协作"
混合专家模型(MoE)不是新技术,但 Google 在 3.5 Flash 里把它推到了新极端:
| MoE 配置 | 传统大型 MoE | Gemini 3.5 Flash |
|---|---|---|
| 专家数量 | 8-16 个 | 256 个 |
| 每次激活 | 1-2 个 | 4 个 |
| 激活参数量占比 | ~10% | ~1.5% |
256 个微型专家,每次只激活最高效的 4 个。这意味着:
- 覆盖更广的特征空间:256 个专家可以各自专攻非常细分的领域(比如一个专门处理递归算法,一个专门处理几何推理)
- 激活成本极低:虽然总参数量可能依然庞大,但每次推理只用到不到 2%
- 路由精度要求更高:从 16 选 1 变成 256 选 4,路由网络本身成了一个精密的"调度中枢"
a16z 的 2026 年 AI 基建投资备忘录分析指出,这种细粒度 MoE 是 3.5 Flash 能在极低激活参数量的同时覆盖庞大特征空间的关键。
3. 速度工程:TTFT < 65ms,比眨眼还快
| 速度指标 | Gemini 3.5 Flash | 竞品参考 |
|---|---|---|
| 输出速度 | 289 tokens/秒 | Claude Opus 4.7: 67 t/s |
| TTFT(首字延迟) | < 65ms | 人类眨眼: 100-150ms |
| Antigravity 优化后 | 12 倍竞品速度 | — |
65 毫秒的 TTFT 是什么概念?
你眨一次眼需要 100-150 毫秒。也就是说,当你在对话框里按下回车,在你眨完眼之前,3.5 Flash 已经开始输出第一个 token 了。
对于 Agent 工作流——需要频繁调用工具、多轮反思、实时交互的场景——这个延迟级别意味着用户根本感受不到停顿。
背后是 TPU v6 Trillium 的硬件支撑,加上 "Thought Preservation" 智能缓存层——复用之前的推理历史,避免重复计算。
Antigravity 2.0:93 个 Agent、12 小时、1000 美元造一个 OS
3.5 Flash 的真正舞台不是聊天框,而是 Agent 工作流。
Google I/O 的标志性演示:让 Antigravity 2.0 从零构建一个操作系统。
| 指标 | 数据 |
|---|---|
| 子 Agent 数量 | 93 个并行 |
| 持续时间 | 12 小时 |
| 模型请求次数 | 15,000+ |
| 处理 tokens | 26 亿 |
| API 总成本 | **< \(1,000** | 最戏剧性的一幕:OS 构建完成后运行 DOOM,因缺少键盘驱动失败。演示者用语音对 Antigravity 说"修复键盘驱动",Agent 自主生成并编译驱动,DOOM 成功运行。 Google 明确表示:**这件事在 Gemini 3.1 Pro 上无法完成**。 原因不是 3.1 Pro "不够聪明",而是**速度不够快 + Agent 可靠性不够高**。93 个并行 Agent 需要极低的单轮延迟,否则整体工作流会被拖垮。3.5 Flash 的 4 倍输出速度 + 65ms TTFT,让这个规模的多 Agent 协作成为可能。 ## 定价策略:比你强,还比你便宜 | 模型 | 输入 (\)/M tokens) |
3.5 Flash 比 3.1 Pro 便宜 40%,同时性能全面超越。
Google 内部的数据更说明问题:今年 3 月,内部开发相关任务每天处理约 5000 亿 tokens,之后每隔几周翻倍,目前已超过每天 3 万亿 tokens。Google 把这称为"反馈循环"——用大规模真实使用持续改进 3.5 Flash。
月活 9 亿的 Gemini App,现在默认底层就是 3.5 Flash。
战略意义:Google 的"端侧落地"统治力
3.5 Flash 的发布不是单一产品更新,而是一整套基础设施的协同:
- 模型层:3.5 Flash(今天)+ 3.5 Pro(下月)+ Omni Flash(全模态)
- 平台层:Antigravity 2.0(Agent-first IDE)
- 硬件层:TPU v6 Trillium
- 应用层:Gemini App、AI Mode 搜索、Android、Workspace
这是一张从芯片到用户的垂直整合网络。别的公司在某一个点竞争,Google 在全链路优化。
65ms TTFT + 289 tokens/s + 256 专家 MoE + TPU v6,单独看每一项都不是独家技术,但同时做到这四项的,目前只有 Google。
对开发者的实际影响
Thinking Toggle:一个需要注意的细节
3.5 Flash 引入了 Minimal/Medium/High 三档 Thinking 控制,默认是 Medium。
这意味着:如果你把之前 3.x 的 API 调用直接迁移过来,而不显式设置 thinking=high,Agent 可能会悄悄损失一部分推理深度。对于需要复杂多步推理的任务,记得检查这个参数。
什么场景最适合 3.5 Flash?
| 场景 | 适合度 | 原因 |
|---|---|---|
| Agent 工作流(多工具调用) | ⭐⭐⭐⭐⭐ | 低延迟 + 高可靠性 |
| 实时交互应用(语音/聊天) | ⭐⭐⭐⭐⭐ | TTFT < 65ms |
| 代码生成与调试 | ⭐⭐⭐⭐⭐ | SWE-bench 38.4% |
| 长文档分析(1M 上下文) | ⭐⭐⭐⭐ | 100 万 token 窗口 |
| 纯文本创意写作 | ⭐⭐⭐ | Flash 优势在速度,创意深度看 Pro |
结语
Gemini 3.5 Flash 证明了这件事:模型的"轻量"和"强大"不再是反义词。
通过极限知识蒸馏继承超大模型的推理能力,通过 256 微型专家 MoE 实现极低激活成本,通过 TPU v6 把延迟压到生理不可感知——Google 不是在做一个更快的模型,而是在做一个能被大规模部署到真实工作流中的智能体引擎。
93 个 Agent、12 小时、1000 美元造一个操作系统。这个数字本身比任何基准测试分数都更有说服力——因为它回答了一个真正重要的问题:
这个东西,能干活吗?
Google 的答案是:能,而且比你想象的便宜和快。
参考来源:
- Google I/O 2026 官方发布 blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-5
- DeepMind Gemini 3.5 Technical Report
- Jeff Dean Twitter 技术解析
- a16z 2026 AI 基建投资备忘录
- OSCHINA / SegmentFault / 虎嗅 / 36氪 现场报道
- Artificial Analysis 速度基准数据
#Gemini #GoogleIO #AI模型 #Agent #编程助手 #深度解读 #格帕文士
讨论回复
1 条回复推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。