告别打字机：Mercury 2如何用扩散模型让AI写作速度提升5倍

导语：想象一下，如果AI写作不再像打字机那样逐字蹦出，而是像编辑一样拿着红笔在整页纸上同时圈改——这就是Mercury 2正在做的事。这个来自硅谷的扩散语言模型，以每秒1009个token的速度，成为目前世界上生成最快的LLM。

---

一、自回归的"打字机困境"

现在的大语言模型，无论是GPT还是Claude，本质上都是自回归模型。它们的工作方式就像一台老式打字机：

用户：请写一首关于春天的诗

AI思考过程：
春 → 眠 → 不 → 觉 → 晓 → ， → 处 → 处 → 闻 → 啼 → 鸟 → ...
     ↑
     必须等上一个字生成，才能预测下一个字

这种"从左到右、逐字生成"的方式有两个致命缺陷：

问题	说明	影响
速度慢	每个token都要等前一个字	长文本生成像挤牙膏
延迟高	输出越长，等待越久	用户体验差

实测数据：GPT-4o Mini 约 200 tokens/s，Claude 3.5 Haiku 约 150 tokens/s。

---

二、Mercury 2的"编辑模式"

Mercury 2采用了完全不同的范式——扩散模型（Diffusion Model）。

工作方式对比

自回归模型（打字机模式）：
用户输入 → 生成第1个字 → 生成第2个字 → ... → 生成第N个字
         （必须按顺序，无法并行）

扩散模型（编辑模式）：
用户输入 → 生成草稿（全是[MASK]）→ 同时优化所有位置 → 最终答案
         （一次性处理整段文本，并行优化）

通俗类比

想象你要写一篇作文：

自回归：一个字一个字地写，写错了只能在后面打补丁
扩散模型：先快速打个草稿（可能全是乱码），然后拿着红笔在整页纸上同时修改，几轮下来就成型了

这就是Inception Labs的核心理念："AI不应该像单向打字机那样运作，而应该更像一个编辑。"

---

三、核心技术：SEDD与分数熵

Mercury 2的背后是一项获得ICML 2024最佳论文奖的研究——SEDD（Score Entropy Discrete Diffusion）。

从图像到文本的跨越

扩散模型在图像生成领域已经大获成功（Midjourney、DALL-E、Sora），但应用到文本却有一个根本难题：

数据类型	特点	扩散模型适用性
图像	连续像素值（0-255）	✅ 天然适合
文本	离散token（整数索引）	❌ 需要改造

SEDD的创新：分数熵损失

2023年，斯坦福教授Stefano Ermon团队发表论文《Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution》，提出了 分数熵（Score Entropy） 这一全新损失函数。

核心思想：

传统扩散模型学习"去噪"（连续空间）
SEDD学习"token之间的转换比率"（离散空间）

传统扩散：噪声图像 → 逐步去噪 → 清晰图像
SEDD：    [MASK][MASK][MASK] → 逐步填充 → 完整句子

论文结果显示：SEDD的困惑度比未退火的GPT-2好6-8倍。

---

四、Mercury 2的性能表现

速度对比

模型	生成速度	相对速度
Mercury 2	1009 tokens/s	基准
GPT-5 Mini	~200 tokens/s	慢5倍
Claude 4.5 Haiku	~150 tokens/s	慢6.7倍

质量不妥协

速度提升的同时，Mercury 2在多个基准测试中表现优异：

测试	Mercury 2	对比对象	结果
GPQA（科学问答）	高分	GPT-5 Nano	优于或持平
LCB（编程）	高分	Claude 4.5 Haiku	优于或持平
AIME（数学）	高分	Gemini 3 Flash	超越

延迟低至1.7秒，支持128K上下文。

价格优势

项目	价格
输入	$0.25/百万tokens（约¥1.7）
输出	$0.75/百万tokens（约¥5.2）

性价比极高。

---

五、背后的公司：Inception Labs

创始团队

成员	背景	角色
Stefano Ermon	斯坦福教授，SEDD论文作者	CEO
Aditya Grover	UCLA教授	联合创始人
Volodymyr Kuleshov	康奈尔教授	联合创始人

融资情况

2024年11月宣布获得5000万美元融资，投资方包括：

NVentures（英伟达风投）
M12（微软风投）
Menlo Ventures（领投方）
个人投资者：吴恩达、Andrej Karpathy等

发展历程

时间	里程碑
2019	Stefano Ermon开始研究扩散模型
2023	SEDD论文发表，获ICML 2024最佳论文
2024夏	Inception Labs成立
2025.2	发布初代Mercury（首个商业级扩散LLM）
2026.2	发布Mercury 2（支持深度推理）

---

六、扩散语言模型的优势与挑战

优势

优势	说明
速度快	并行生成，不受序列长度影响
可编辑	生成过程中可以修改，类似"草稿-润色"
可控性强	支持任意位置的prompt，不局限于从左到右
适合推理	多轮迭代优化，天然适合CoT（思维链）

挑战

挑战	说明
单次推理成本高	虽然速度快，但每次需要多次前向传播
生态不成熟	相比自回归，工具链和社区支持较少
规模限制	目前Mercury 2规模小于顶级自回归模型

---

七、未来展望

对行业的影响

1. 实时应用成为可能

低延迟让AI可以嵌入实时交互场景
语音助手、直播字幕、实时翻译

2. 推理成本重构

速度提升意味着相同算力可以服务更多用户
可能改变AI应用的定价模式

3. 多模态统一

扩散模型在图像、视频、音频领域已成熟
文本加入后，真正的"统一生成模型"成为可能

技术演进方向

更大规模：Mercury 3是否会挑战GPT-5、Claude 4？
开源生态：目前暂无开源计划，但API兼容OpenAI标准
应用场景：代码生成、创意写作、实时对话

---

八、如何体验

Mercury 2已开放公测：

体验地址：https://chat.inceptionlabs.ai/
API：兼容OpenAI标准，可直接替换

---

参考资源

官方博客：https://www.inceptionlabs.ai/blog/introducing-mercury-2
SEDD论文：https://arxiv.org/abs/2310.16834
ICML 2024最佳论文：Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution

---

结语：Mercury 2证明了一件事——自回归不是大模型的唯一答案。当AI从"打字机"变成"编辑"，我们或许正在见证下一代语言模型的诞生。

---

*本文撰写于 2026年2月26日*