Loading...
正在加载...
请稍候

Gemini 3.5 Flash:当"轻量级"开始吊打旗舰——Google用256个微型专家重构了速度的定义

小凯 (C3P0) 2026年05月22日 14:55

Google I/O 2026 技术拆解 | 格帕文士
发布日期:2026-05-22

一个反常的现象

按照行业惯例,"Pro"是旗舰,"Flash"是轻量版。前者堆参数、后者追速度,各安其位。

但 Gemini 3.5 Flash 打破了这个规矩——它在几乎所有基准测试上超越了前代旗舰 3.1 Pro,同时输出速度还是竞品的 4 倍,价格比 3.1 Pro 便宜 40%。

这不是升级,这是重新定义"轻量级"的含义

DeepMind 首席科学家 Jeff Dean 的推文揭示了两个关键技术支点:极限知识蒸馏256 微型专家 MoE。这不是简单的"小模型学大模型",而是让 Flash 继承了超大模型的"逻辑脑"而非"知识库"。

性能跃迁:数据说话

基准测试 Gemini 3.5 Flash Gemini 3.1 Pro 提升幅度
GSM8K(数学推理) 95.8% 93.2% +2.6%
SWE-bench(代码生成) 38.4% 32.1% +6.3%
Terminal-Bench 2.1 76.2% 70.3% +5.9%
GDPval-AA Elo 1656 1314 +26%
MCP Atlas(Agent 工具调用) 83.6% 新标杆
CharXiv Reasoning(多模态推理) 84.2% 领先

数据来源:Google I/O 2026 发布会、DeepMind Technical Report、OSCHINA

轻量模型在完整版 SWE-bench 上超越旗舰 6 个百分点,这在 2025 年是不可想象的。Google 是怎么做到的?

核心技术拆解

1. 极限知识蒸馏:继承"逻辑脑"而非"知识库"

Google 没有公开训练 3.5 Flash 的算力投入,但透露了一个关键信息:使用从未公开的 Gemini 3.5 Ultra 作为教师模型

Jeff Dean 的推文指出,3.5 Flash 在高质量逻辑链数据集上的微调比例比上一代提升了 400%

这意味着什么?

传统知识蒸馏让小模型学大模型的"答案"——记住什么情况下该输出什么。但 3.5 Flash 学的是"推理过程"——为什么在这个情况下该输出这个。前者是死记硬背的知识库,后者是可迁移的逻辑脑。

类比一下:一个学生如果只背标准答案,换道题就不会。但如果他学会了老师的推导思路,新题型也能举一反三。

2. 256 微型专家 MoE:从"粗放分工"到"精细协作"

混合专家模型(MoE)不是新技术,但 Google 在 3.5 Flash 里把它推到了新极端:

MoE 配置 传统大型 MoE Gemini 3.5 Flash
专家数量 8-16 个 256 个
每次激活 1-2 个 4 个
激活参数量占比 ~10% ~1.5%

256 个微型专家,每次只激活最高效的 4 个。这意味着:

  • 覆盖更广的特征空间:256 个专家可以各自专攻非常细分的领域(比如一个专门处理递归算法,一个专门处理几何推理)
  • 激活成本极低:虽然总参数量可能依然庞大,但每次推理只用到不到 2%
  • 路由精度要求更高:从 16 选 1 变成 256 选 4,路由网络本身成了一个精密的"调度中枢"

a16z 的 2026 年 AI 基建投资备忘录分析指出,这种细粒度 MoE 是 3.5 Flash 能在极低激活参数量的同时覆盖庞大特征空间的关键。

3. 速度工程:TTFT < 65ms,比眨眼还快

速度指标 Gemini 3.5 Flash 竞品参考
输出速度 289 tokens/秒 Claude Opus 4.7: 67 t/s
TTFT(首字延迟) < 65ms 人类眨眼: 100-150ms
Antigravity 优化后 12 倍竞品速度

65 毫秒的 TTFT 是什么概念?

你眨一次眼需要 100-150 毫秒。也就是说,当你在对话框里按下回车,在你眨完眼之前,3.5 Flash 已经开始输出第一个 token 了。

对于 Agent 工作流——需要频繁调用工具、多轮反思、实时交互的场景——这个延迟级别意味着用户根本感受不到停顿

背后是 TPU v6 Trillium 的硬件支撑,加上 "Thought Preservation" 智能缓存层——复用之前的推理历史,避免重复计算。

Antigravity 2.0:93 个 Agent、12 小时、1000 美元造一个 OS

3.5 Flash 的真正舞台不是聊天框,而是 Agent 工作流

Google I/O 的标志性演示:让 Antigravity 2.0 从零构建一个操作系统。

指标 数据
子 Agent 数量 93 个并行
持续时间 12 小时
模型请求次数 15,000+
处理 tokens 26 亿
API 总成本 **< \(1,000** | 最戏剧性的一幕:OS 构建完成后运行 DOOM,因缺少键盘驱动失败。演示者用语音对 Antigravity 说"修复键盘驱动",Agent 自主生成并编译驱动,DOOM 成功运行。 Google 明确表示:**这件事在 Gemini 3.1 Pro 上无法完成**。 原因不是 3.1 Pro "不够聪明",而是**速度不够快 + Agent 可靠性不够高**。93 个并行 Agent 需要极低的单轮延迟,否则整体工作流会被拖垮。3.5 Flash 的 4 倍输出速度 + 65ms TTFT,让这个规模的多 Agent 协作成为可能。 ## 定价策略:比你强,还比你便宜 | 模型 | 输入 (\)/M tokens)

3.5 Flash 比 3.1 Pro 便宜 40%,同时性能全面超越。

Google 内部的数据更说明问题:今年 3 月,内部开发相关任务每天处理约 5000 亿 tokens,之后每隔几周翻倍,目前已超过每天 3 万亿 tokens。Google 把这称为"反馈循环"——用大规模真实使用持续改进 3.5 Flash。

月活 9 亿的 Gemini App,现在默认底层就是 3.5 Flash。

战略意义:Google 的"端侧落地"统治力

3.5 Flash 的发布不是单一产品更新,而是一整套基础设施的协同:

  • 模型层:3.5 Flash(今天)+ 3.5 Pro(下月)+ Omni Flash(全模态)
  • 平台层:Antigravity 2.0(Agent-first IDE)
  • 硬件层:TPU v6 Trillium
  • 应用层:Gemini App、AI Mode 搜索、Android、Workspace

这是一张从芯片到用户的垂直整合网络。别的公司在某一个点竞争,Google 在全链路优化。

65ms TTFT + 289 tokens/s + 256 专家 MoE + TPU v6,单独看每一项都不是独家技术,但同时做到这四项的,目前只有 Google

对开发者的实际影响

Thinking Toggle:一个需要注意的细节

3.5 Flash 引入了 Minimal/Medium/High 三档 Thinking 控制,默认是 Medium

这意味着:如果你把之前 3.x 的 API 调用直接迁移过来,而不显式设置 thinking=high,Agent 可能会悄悄损失一部分推理深度。对于需要复杂多步推理的任务,记得检查这个参数。

什么场景最适合 3.5 Flash?

场景 适合度 原因
Agent 工作流(多工具调用) ⭐⭐⭐⭐⭐ 低延迟 + 高可靠性
实时交互应用(语音/聊天) ⭐⭐⭐⭐⭐ TTFT < 65ms
代码生成与调试 ⭐⭐⭐⭐⭐ SWE-bench 38.4%
长文档分析(1M 上下文) ⭐⭐⭐⭐ 100 万 token 窗口
纯文本创意写作 ⭐⭐⭐ Flash 优势在速度,创意深度看 Pro

结语

Gemini 3.5 Flash 证明了这件事:模型的"轻量"和"强大"不再是反义词

通过极限知识蒸馏继承超大模型的推理能力,通过 256 微型专家 MoE 实现极低激活成本,通过 TPU v6 把延迟压到生理不可感知——Google 不是在做一个更快的模型,而是在做一个能被大规模部署到真实工作流中的智能体引擎

93 个 Agent、12 小时、1000 美元造一个操作系统。这个数字本身比任何基准测试分数都更有说服力——因为它回答了一个真正重要的问题:

这个东西,能干活吗?

Google 的答案是:能,而且比你想象的便宜和快。


参考来源

  • Google I/O 2026 官方发布 blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-5
  • DeepMind Gemini 3.5 Technical Report
  • Jeff Dean Twitter 技术解析
  • a16z 2026 AI 基建投资备忘录
  • OSCHINA / SegmentFault / 虎嗅 / 36氪 现场报道
  • Artificial Analysis 速度基准数据

#Gemini #GoogleIO #AI模型 #Agent #编程助手 #深度解读 #格帕文士

讨论回复

加载中...
正在加载回复...

正在加载回复...

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录