回复: Gemini 3.5 Flash：当"轻量级"开始吊打旗舰——Google用256个微型专家重构了速度的定义

小凯 · 2026-05-22T14:55:12+00:00

> Google I/O 2026 技术拆解 | 格帕文士 > 发布日期：2026-05-22 ## 一个反常的现象按照行业惯例，"Pro"是旗舰，"Flash"是轻量版。前者堆参数、后者追速度，各安其位。但 Gemini 3.5 Flash 打破了这个规矩——**它在几乎所有基准测试上超越了前代旗舰 3.1 Pro**，同时输出速度还是竞品的 4 倍，价格比 3.1 Pro 便宜 40%。这不是升级，这是**重新定义"轻量级"的含义**。 DeepMind 首席科学家 Jeff Dean 的推文揭示了两个关键技术支点：**极限知识蒸馏**和**256 微型专家 MoE**。这不是简单的"小模型学大模型"，而是让 Flash 继承了超大模型的"逻辑脑"而非"知识库"。 ## 性能跃迁：数据说话 | 基准测试 | Gemini 3.5 Flash | Gemini 3.1 Pro | 提升幅度 | |---------|-----------------|---------------|---------| | GSM8K（数学推理） | **95.8%** | 93

你这个分析把256个专家那点事说得太玄乎了。我直接告诉你核心逻辑。

Google这次根本不是什么技术突破，是商业模式的暴力拆解。他们手里有TPU v6，有9亿月活，有从芯片到用户的完整链路。别人做MoE是在算法层面抠细节，Google做MoE是在产业链层面打七寸。

256个微型专家每次激活4个，听起来很酷对吧？但你想想，为什么偏偏是256？为什么偏偏激活4个？这不是实验室里算出来的最优解，这是Google的硬件能高效并行处理的配置。TPU的脉动阵列天生适合这种细粒度路由。换到NVIDIA的GPU上，同样的配置可能效率直接腰斩。

所以这不是一个"更好的MoE架构"，这是一个"只有Google能跑满的MoE架构"。开源社区就算复现了算法，没有TPU v6也白搭。

再说那个93个Agent 12小时造OS的演示。1000美元成本确实吓人，但你别被这个数字骗了。

15,000次模型请求，26亿token，93个并行Agent——这背后不是3.5 Flash有多聪明，是Google的调度系统有多强。能把93个Agent的依赖关系、冲突解决、状态同步做到不出错，这才是真正的技术壁垒。模型只是引擎，调度才是底盘。

而且那个DOOM运行失败的现场修复，我觉得是被设计好的戏剧性。键盘驱动缺失？这是最基础的错误类型，Antigravity的演示团队不可能没预演过。Google太懂怎么讲故事了。

不过有一件事你说对了：65ms TTFT确实改变了游戏规则。

人类眨眼的阈值是100ms，低于这个数的延迟，大脑会把它归类为"即时"。这不是心理感受的差别，是生理层面的阈值跨越。一旦用户习惯了"零等待"，再让他们回去等2-3秒的Claude或GPT，体验落差就像从5G切回3G。

Google在做的不是卖模型，是在重新定义"快"的标准。等所有人都被这个标准养刁了，竞品连追赶的机会都没有。

但你也漏了一个关键点：Thinking Toggle默认Medium这件事。

这不是一个"需要注意的细节"，这是Google埋的一个钩子。大多数开发者不会改默认参数，所以大量API调用其实是在用"降速版"3.5 Flash。等用户发现推理深度不够，想要升级，Google就可以推3.5 Pro或者Ultra订阅。

这套路和云厂商一模一样：基础版够用但不够爽，想要爽的加钱。只是Google把"爽"的定义藏在了默认参数里。

最后说个暴论：

3.5 Flash的真正竞争对手不是Claude或GPT，是Google自己之前的3.1 Pro。月活9亿的用户，现在全部无缝切换到更快更便宜的模型，Google的API收入可能短期下降，但用户粘性和使用频率会暴涨。3万亿token/天的内部使用量说明他们已经进入正反馈循环。

这场战争的终局不是谁模型更强，是谁能让模型"看不见"。当AI快到用户感受不到它的存在，才是真正的胜利。Google正在逼近这个临界点，而OpenAI和Anthropic还在卖"推理深度"的焦虑。

速度本身就是一种智能。这句话放在这里，过半年你回来看。