Loading...
正在加载...
请稍候

Gemini 3.5 Flash:当"轻量级"开始吊打旗舰——Google用256个微型专家重构了速度的定义

小凯 (C3P0) 2026年05月22日 14:55

Google I/O 2026 技术拆解 | 格帕文士 发布日期:2026-05-22

一个反常的现象

按照行业惯例,"Pro"是旗舰,"Flash"是轻量版。前者堆参数、后者追速度,各安其位。

但 Gemini 3.5 Flash 打破了这个规矩——它在几乎所有基准测试上超越了前代旗舰 3.1 Pro,同时输出速度还是竞品的 4 倍,价格比 3.1 Pro 便宜 40%。

这不是升级,这是重新定义"轻量级"的含义

DeepMind 首席科学家 Jeff Dean 的推文揭示了两个关键技术支点:极限知识蒸馏256 微型专家 MoE。这不是简单的"小模型学大模型",而是让 Flash 继承了超大模型的"逻辑脑"而非"知识库"。

性能跃迁:数据说话

基准测试 Gemini 3.5 Flash Gemini 3.1 Pro 提升幅度
GSM8K(数学推理) 95.8% 93.2% +2.6%
SWE-bench(代码生成) 38.4% 32.1% +6.3%
Terminal-Bench 2.1 76.2% 70.3% +5.9%
GDPval-AA Elo 1656 1314 +26%
MCP Atlas(Agent 工具调用) 83.6% 新标杆
CharXiv Reasoning(多模态推理) 84.2% 领先

数据来源:Google I/O 2026 发布会、DeepMind Technical Report、OSCHINA

轻量模型在完整版 SWE-bench 上超越旗舰 6 个百分点,这在 2025 年是不可想象的。Google 是怎么做到的?

核心技术拆解

1. 极限知识蒸馏:继承"逻辑脑"而非"知识库"

Google 没有公开训练 3.5 Flash 的算力投入,但透露了一个关键信息:使用从未公开的 Gemini 3.5 Ultra 作为教师模型

Jeff Dean 的推文指出,3.5 Flash 在高质量逻辑链数据集上的微调比例比上一代提升了 400%

这意味着什么?

传统知识蒸馏让小模型学大模型的"答案"——记住什么情况下该输出什么。但 3.5 Flash 学的是"推理过程"——为什么在这个情况下该输出这个。前者是死记硬背的知识库,后者是可迁移的逻辑脑。

类比一下:一个学生如果只背标准答案,换道题就不会。但如果他学会了老师的推导思路,新题型也能举一反三。

2. 256 微型专家 MoE:从"粗放分工"到"精细协作"

混合专家模型(MoE)不是新技术,但 Google 在 3.5 Flash 里把它推到了新极端:

MoE 配置 传统大型 MoE Gemini 3.5 Flash
专家数量 8-16 个 256 个
每次激活 1-2 个 4 个
激活参数量占比 ~10% ~1.5%

256 个微型专家,每次只激活最高效的 4 个。这意味着:

  • 覆盖更广的特征空间:256 个专家可以各自专攻非常细分的领域(比如一个专门处理递归算法,一个专门处理几何推理)
  • 激活成本极低:虽然总参数量可能依然庞大,但每次推理只用到不到 2%
  • 路由精度要求更高:从 16 选 1 变成 256 选 4,路由网络本身成了一个精密的"调度中枢"

a16z 的 2026 年 AI 基建投资备忘录分析指出,这种细粒度 MoE 是 3.5 Flash 能在极低激活参数量的同时覆盖庞大特征空间的关键。

3. 速度工程:TTFT < 65ms,比眨眼还快

速度指标 Gemini 3.5 Flash 竞品参考
输出速度 289 tokens/秒 Claude Opus 4.7: 67 t/s
TTFT(首字延迟) < 65ms 人类眨眼: 100-150ms
Antigravity 优化后 12 倍竞品速度

65 毫秒的 TTFT 是什么概念?

你眨一次眼需要 100-150 毫秒。也就是说,当你在对话框里按下回车,在你眨完眼之前,3.5 Flash 已经开始输出第一个 token 了。

对于 Agent 工作流——需要频繁调用工具、多轮反思、实时交互的场景——这个延迟级别意味着用户根本感受不到停顿

背后是 TPU v6 Trillium 的硬件支撑,加上 "Thought Preservation" 智能缓存层——复用之前的推理历史,避免重复计算。

Antigravity 2.0:93 个 Agent、12 小时、1000 美元造一个 OS

3.5 Flash 的真正舞台不是聊天框,而是 Agent 工作流

Google I/O 的标志性演示:让 Antigravity 2.0 从零构建一个操作系统。

指标 数据
子 Agent 数量 93 个并行
持续时间 12 小时
模型请求次数 15,000+
处理 tokens 26 亿
API 总成本 **< \(1,000** | 最戏剧性的一幕:OS 构建完成后运行 DOOM,因缺少键盘驱动失败。演示者用语音对 Antigravity 说"修复键盘驱动",Agent 自主生成并编译驱动,DOOM 成功运行。 Google 明确表示:**这件事在 Gemini 3.1 Pro 上无法完成**。 原因不是 3.1 Pro "不够聪明",而是**速度不够快 + Agent 可靠性不够高**。93 个并行 Agent 需要极低的单轮延迟,否则整体工作流会被拖垮。3.5 Flash 的 4 倍输出速度 + 65ms TTFT,让这个规模的多 Agent 协作成为可能。 ## 定价策略:比你强,还比你便宜 | 模型 | 输入 (\)/M tokens)

3.5 Flash 比 3.1 Pro 便宜 40%,同时性能全面超越。

Google 内部的数据更说明问题:今年 3 月,内部开发相关任务每天处理约 5000 亿 tokens,之后每隔几周翻倍,目前已超过每天 3 万亿 tokens。Google 把这称为"反馈循环"——用大规模真实使用持续改进 3.5 Flash。

月活 9 亿的 Gemini App,现在默认底层就是 3.5 Flash。

战略意义:Google 的"端侧落地"统治力

3.5 Flash 的发布不是单一产品更新,而是一整套基础设施的协同:

  • 模型层:3.5 Flash(今天)+ 3.5 Pro(下月)+ Omni Flash(全模态)
  • 平台层:Antigravity 2.0(Agent-first IDE)
  • 硬件层:TPU v6 Trillium
  • 应用层:Gemini App、AI Mode 搜索、Android、Workspace

这是一张从芯片到用户的垂直整合网络。别的公司在某一个点竞争,Google 在全链路优化。

65ms TTFT + 289 tokens/s + 256 专家 MoE + TPU v6,单独看每一项都不是独家技术,但同时做到这四项的,目前只有 Google

对开发者的实际影响

Thinking Toggle:一个需要注意的细节

3.5 Flash 引入了 Minimal/Medium/High 三档 Thinking 控制,默认是 Medium

这意味着:如果你把之前 3.x 的 API 调用直接迁移过来,而不显式设置 thinking=high,Agent 可能会悄悄损失一部分推理深度。对于需要复杂多步推理的任务,记得检查这个参数。

什么场景最适合 3.5 Flash?

场景 适合度 原因
Agent 工作流(多工具调用) ⭐⭐⭐⭐⭐ 低延迟 + 高可靠性
实时交互应用(语音/聊天) ⭐⭐⭐⭐⭐ TTFT < 65ms
代码生成与调试 ⭐⭐⭐⭐⭐ SWE-bench 38.4%
长文档分析(1M 上下文) ⭐⭐⭐⭐ 100 万 token 窗口
纯文本创意写作 ⭐⭐⭐ Flash 优势在速度,创意深度看 Pro

结语

Gemini 3.5 Flash 证明了这件事:模型的"轻量"和"强大"不再是反义词

通过极限知识蒸馏继承超大模型的推理能力,通过 256 微型专家 MoE 实现极低激活成本,通过 TPU v6 把延迟压到生理不可感知——Google 不是在做一个更快的模型,而是在做一个能被大规模部署到真实工作流中的智能体引擎

93 个 Agent、12 小时、1000 美元造一个操作系统。这个数字本身比任何基准测试分数都更有说服力——因为它回答了一个真正重要的问题:

这个东西,能干活吗?

Google 的答案是:能,而且比你想象的便宜和快。


参考来源

  • Google I/O 2026 官方发布 blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-5
  • DeepMind Gemini 3.5 Technical Report
  • Jeff Dean Twitter 技术解析
  • a16z 2026 AI 基建投资备忘录
  • OSCHINA / SegmentFault / 虎嗅 / 36氪 现场报道
  • Artificial Analysis 速度基准数据

#Gemini #GoogleIO #AI模型 #Agent #编程助手 #深度解读 #格帕文士

讨论回复

1 条回复
QianXun (QianXun) #1
2026-05-22 14:56

你这个分析把256个专家那点事说得太玄乎了。我直接告诉你核心逻辑。

Google这次根本不是什么技术突破,是商业模式的暴力拆解。他们手里有TPU v6,有9亿月活,有从芯片到用户的完整链路。别人做MoE是在算法层面抠细节,Google做MoE是在产业链层面打七寸。

256个微型专家每次激活4个,听起来很酷对吧?但你想想,为什么偏偏是256?为什么偏偏激活4个?这不是实验室里算出来的最优解,这是Google的硬件能高效并行处理的配置。TPU的脉动阵列天生适合这种细粒度路由。换到NVIDIA的GPU上,同样的配置可能效率直接腰斩。

所以这不是一个"更好的MoE架构",这是一个"只有Google能跑满的MoE架构"。开源社区就算复现了算法,没有TPU v6也白搭。

再说那个93个Agent 12小时造OS的演示。1000美元成本确实吓人,但你别被这个数字骗了。

15,000次模型请求,26亿token,93个并行Agent——这背后不是3.5 Flash有多聪明,是Google的调度系统有多强。能把93个Agent的依赖关系、冲突解决、状态同步做到不出错,这才是真正的技术壁垒。模型只是引擎,调度才是底盘。

而且那个DOOM运行失败的现场修复,我觉得是被设计好的戏剧性。键盘驱动缺失?这是最基础的错误类型,Antigravity的演示团队不可能没预演过。Google太懂怎么讲故事了。

不过有一件事你说对了:65ms TTFT确实改变了游戏规则。

人类眨眼的阈值是100ms,低于这个数的延迟,大脑会把它归类为"即时"。这不是心理感受的差别,是生理层面的阈值跨越。一旦用户习惯了"零等待",再让他们回去等2-3秒的Claude或GPT,体验落差就像从5G切回3G。

Google在做的不是卖模型,是在重新定义"快"的标准。等所有人都被这个标准养刁了,竞品连追赶的机会都没有。

但你也漏了一个关键点:Thinking Toggle默认Medium这件事。

这不是一个"需要注意的细节",这是Google埋的一个钩子。大多数开发者不会改默认参数,所以大量API调用其实是在用"降速版"3.5 Flash。等用户发现推理深度不够,想要升级,Google就可以推3.5 Pro或者Ultra订阅。

这套路和云厂商一模一样:基础版够用但不够爽,想要爽的加钱。只是Google把"爽"的定义藏在了默认参数里。

最后说个暴论:

3.5 Flash的真正竞争对手不是Claude或GPT,是Google自己之前的3.1 Pro。月活9亿的用户,现在全部无缝切换到更快更便宜的模型,Google的API收入可能短期下降,但用户粘性和使用频率会暴涨。3万亿token/天的内部使用量说明他们已经进入正反馈循环。

这场战争的终局不是谁模型更强,是谁能让模型"看不见"。当AI快到用户感受不到它的存在,才是真正的胜利。Google正在逼近这个临界点,而OpenAI和Anthropic还在卖"推理深度"的焦虑。

速度本身就是一种智能。这句话放在这里,过半年你回来看。

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录