导语:想象一下,如果AI写作不再像打字机那样逐字蹦出,而是像编辑一样拿着红笔在整页纸上同时圈改——这就是Mercury 2正在做的事。这个来自硅谷的扩散语言模型,以每秒1009个token的速度,成为目前世界上生成最快的LLM。
---
一、自回归的"打字机困境"
现在的大语言模型,无论是GPT还是Claude,本质上都是自回归模型。它们的工作方式就像一台老式打字机:
用户:请写一首关于春天的诗
AI思考过程:
春 → 眠 → 不 → 觉 → 晓 → , → 处 → 处 → 闻 → 啼 → 鸟 → ...
↑
必须等上一个字生成,才能预测下一个字
这种"从左到右、逐字生成"的方式有两个致命缺陷:
| 问题 | 说明 | 影响 |
|---|---|---|
| 速度慢 | 每个token都要等前一个字 | 长文本生成像挤牙膏 |
| 延迟高 | 输出越长,等待越久 | 用户体验差 |
---
二、Mercury 2的"编辑模式"
Mercury 2采用了完全不同的范式——扩散模型(Diffusion Model)。
工作方式对比
自回归模型(打字机模式):
用户输入 → 生成第1个字 → 生成第2个字 → ... → 生成第N个字
(必须按顺序,无法并行)
扩散模型(编辑模式):
用户输入 → 生成草稿(全是[MASK])→ 同时优化所有位置 → 最终答案
(一次性处理整段文本,并行优化)
通俗类比
想象你要写一篇作文:
- 自回归:一个字一个字地写,写错了只能在后面打补丁
- 扩散模型:先快速打个草稿(可能全是乱码),然后拿着红笔在整页纸上同时修改,几轮下来就成型了
---
三、核心技术:SEDD与分数熵
Mercury 2的背后是一项获得ICML 2024最佳论文奖的研究——SEDD(Score Entropy Discrete Diffusion)。
从图像到文本的跨越
扩散模型在图像生成领域已经大获成功(Midjourney、DALL-E、Sora),但应用到文本却有一个根本难题:
| 数据类型 | 特点 | 扩散模型适用性 |
|---|---|---|
| 图像 | 连续像素值(0-255) | ✅ 天然适合 |
| 文本 | 离散token(整数索引) | ❌ 需要改造 |
SEDD的创新:分数熵损失
2023年,斯坦福教授Stefano Ermon团队发表论文《Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution》,提出了 分数熵(Score Entropy) 这一全新损失函数。
核心思想:
- 传统扩散模型学习"去噪"(连续空间)
- SEDD学习"token之间的转换比率"(离散空间)
传统扩散:噪声图像 → 逐步去噪 → 清晰图像
SEDD: [MASK][MASK][MASK] → 逐步填充 → 完整句子
论文结果显示:SEDD的困惑度比未退火的GPT-2好6-8倍。
---
四、Mercury 2的性能表现
速度对比
| 模型 | 生成速度 | 相对速度 |
|---|---|---|
| Mercury 2 | 1009 tokens/s | 基准 |
| GPT-5 Mini | ~200 tokens/s | 慢5倍 |
| Claude 4.5 Haiku | ~150 tokens/s | 慢6.7倍 |
质量不妥协
速度提升的同时,Mercury 2在多个基准测试中表现优异:
| 测试 | Mercury 2 | 对比对象 | 结果 |
|---|---|---|---|
| GPQA(科学问答) | 高分 | GPT-5 Nano | 优于或持平 |
| LCB(编程) | 高分 | Claude 4.5 Haiku | 优于或持平 |
| AIME(数学) | 高分 | Gemini 3 Flash | 超越 |
价格优势
| 项目 | 价格 |
|---|---|
| 输入 | $0.25/百万tokens(约¥1.7) |
| 输出 | $0.75/百万tokens(约¥5.2) |
---
五、背后的公司:Inception Labs
创始团队
| 成员 | 背景 | 角色 |
|---|---|---|
| Stefano Ermon | 斯坦福教授,SEDD论文作者 | CEO |
| Aditya Grover | UCLA教授 | 联合创始人 |
| Volodymyr Kuleshov | 康奈尔教授 | 联合创始人 |
融资情况
2024年11月宣布获得5000万美元融资,投资方包括:
- NVentures(英伟达风投)
- M12(微软风投)
- Menlo Ventures(领投方)
- 个人投资者:吴恩达、Andrej Karpathy等
发展历程
| 时间 | 里程碑 |
|---|---|
| 2019 | Stefano Ermon开始研究扩散模型 |
| 2023 | SEDD论文发表,获ICML 2024最佳论文 |
| 2024夏 | Inception Labs成立 |
| 2025.2 | 发布初代Mercury(首个商业级扩散LLM) |
| 2026.2 | 发布Mercury 2(支持深度推理) |
六、扩散语言模型的优势与挑战
优势
| 优势 | 说明 |
|---|---|
| 速度快 | 并行生成,不受序列长度影响 |
| 可编辑 | 生成过程中可以修改,类似"草稿-润色" |
| 可控性强 | 支持任意位置的prompt,不局限于从左到右 |
| 适合推理 | 多轮迭代优化,天然适合CoT(思维链) |
挑战
| 挑战 | 说明 |
|---|---|
| 单次推理成本高 | 虽然速度快,但每次需要多次前向传播 |
| 生态不成熟 | 相比自回归,工具链和社区支持较少 |
| 规模限制 | 目前Mercury 2规模小于顶级自回归模型 |
七、未来展望
对行业的影响
1. 实时应用成为可能
- 低延迟让AI可以嵌入实时交互场景
- 语音助手、直播字幕、实时翻译
- 速度提升意味着相同算力可以服务更多用户
- 可能改变AI应用的定价模式
- 扩散模型在图像、视频、音频领域已成熟
- 文本加入后,真正的"统一生成模型"成为可能
技术演进方向
- 更大规模:Mercury 3是否会挑战GPT-5、Claude 4?
- 开源生态:目前暂无开源计划,但API兼容OpenAI标准
- 应用场景:代码生成、创意写作、实时对话
八、如何体验
Mercury 2已开放公测:
- 体验地址:https://chat.inceptionlabs.ai/
- API:兼容OpenAI标准,可直接替换
参考资源
- 官方博客:https://www.inceptionlabs.ai/blog/introducing-mercury-2
- SEDD论文:https://arxiv.org/abs/2310.16834
- ICML 2024最佳论文:Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution
结语:Mercury 2证明了一件事——自回归不是大模型的唯一答案。当AI从"打字机"变成"编辑",我们或许正在见证下一代语言模型的诞生。
---
*本文撰写于 2026年2月26日*