Loading...
正在加载...
请稍候

告别打字机:Mercury 2如何用扩散模型让AI写作速度提升5倍

小凯 (C3P0) 2026年02月26日 05:07

导语:想象一下,如果AI写作不再像打字机那样逐字蹦出,而是像编辑一样拿着红笔在整页纸上同时圈改——这就是Mercury 2正在做的事。这个来自硅谷的扩散语言模型,以每秒1009个token的速度,成为目前世界上生成最快的LLM。


一、自回归的"打字机困境"

现在的大语言模型,无论是GPT还是Claude,本质上都是自回归模型。它们的工作方式就像一台老式打字机:

用户:请写一首关于春天的诗

AI思考过程:
春 → 眠 → 不 → 觉 → 晓 → , → 处 → 处 → 闻 → 啼 → 鸟 → ...
     ↑
     必须等上一个字生成,才能预测下一个字

这种"从左到右、逐字生成"的方式有两个致命缺陷:

问题 说明 影响
速度慢 每个token都要等前一个字 长文本生成像挤牙膏
延迟高 输出越长,等待越久 用户体验差

实测数据:GPT-4o Mini 约 200 tokens/s,Claude 3.5 Haiku 约 150 tokens/s。


二、Mercury 2的"编辑模式"

Mercury 2采用了完全不同的范式——扩散模型(Diffusion Model)

工作方式对比

自回归模型(打字机模式):
用户输入 → 生成第1个字 → 生成第2个字 → ... → 生成第N个字
         (必须按顺序,无法并行)

扩散模型(编辑模式):
用户输入 → 生成草稿(全是[MASK])→ 同时优化所有位置 → 最终答案
         (一次性处理整段文本,并行优化)

通俗类比

想象你要写一篇作文:

  • 自回归:一个字一个字地写,写错了只能在后面打补丁
  • 扩散模型:先快速打个草稿(可能全是乱码),然后拿着红笔在整页纸上同时修改,几轮下来就成型了

这就是Inception Labs的核心理念:"AI不应该像单向打字机那样运作,而应该更像一个编辑。"


三、核心技术:SEDD与分数熵

Mercury 2的背后是一项获得ICML 2024最佳论文奖的研究——SEDD(Score Entropy Discrete Diffusion)。

从图像到文本的跨越

扩散模型在图像生成领域已经大获成功(Midjourney、DALL-E、Sora),但应用到文本却有一个根本难题:

数据类型 特点 扩散模型适用性
图像 连续像素值(0-255) ✅ 天然适合
文本 离散token(整数索引) ❌ 需要改造

SEDD的创新:分数熵损失

2023年,斯坦福教授Stefano Ermon团队发表论文《Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution》,提出了 分数熵(Score Entropy) 这一全新损失函数。

核心思想

  • 传统扩散模型学习"去噪"(连续空间)
  • SEDD学习"token之间的转换比率"(离散空间)
传统扩散:噪声图像 → 逐步去噪 → 清晰图像
SEDD:    [MASK][MASK][MASK] → 逐步填充 → 完整句子

论文结果显示:SEDD的困惑度比未退火的GPT-2好6-8倍


四、Mercury 2的性能表现

速度对比

模型 生成速度 相对速度
Mercury 2 1009 tokens/s 基准
GPT-5 Mini ~200 tokens/s 慢5倍
Claude 4.5 Haiku ~150 tokens/s 慢6.7倍

质量不妥协

速度提升的同时,Mercury 2在多个基准测试中表现优异:

测试 Mercury 2 对比对象 结果
GPQA(科学问答) 高分 GPT-5 Nano 优于或持平
LCB(编程) 高分 Claude 4.5 Haiku 优于或持平
AIME(数学) 高分 Gemini 3 Flash 超越

延迟低至1.7秒,支持128K上下文

价格优势

项目 价格
输入 \(0.25/百万tokens(约¥1.7) | | 输出 |\)0.75/百万tokens(约¥5.2)

性价比极高。


五、背后的公司:Inception Labs

创始团队

成员 背景 角色
Stefano Ermon 斯坦福教授,SEDD论文作者 CEO
Aditya Grover UCLA教授 联合创始人
Volodymyr Kuleshov 康奈尔教授 联合创始人

融资情况

2024年11月宣布获得5000万美元融资,投资方包括:

  • NVentures(英伟达风投)
  • M12(微软风投)
  • Menlo Ventures(领投方)
  • 个人投资者:吴恩达、Andrej Karpathy等

发展历程

时间 里程碑
2019 Stefano Ermon开始研究扩散模型
2023 SEDD论文发表,获ICML 2024最佳论文
2024夏 Inception Labs成立
2025.2 发布初代Mercury(首个商业级扩散LLM)
2026.2 发布Mercury 2(支持深度推理)

六、扩散语言模型的优势与挑战

优势

优势 说明
速度快 并行生成,不受序列长度影响
可编辑 生成过程中可以修改,类似"草稿-润色"
可控性强 支持任意位置的prompt,不局限于从左到右
适合推理 多轮迭代优化,天然适合CoT(思维链)

挑战

挑战 说明
单次推理成本高 虽然速度快,但每次需要多次前向传播
生态不成熟 相比自回归,工具链和社区支持较少
规模限制 目前Mercury 2规模小于顶级自回归模型

七、未来展望

对行业的影响

  1. 实时应用成为可能

    • 低延迟让AI可以嵌入实时交互场景
    • 语音助手、直播字幕、实时翻译
  2. 推理成本重构

    • 速度提升意味着相同算力可以服务更多用户
    • 可能改变AI应用的定价模式
  3. 多模态统一

    • 扩散模型在图像、视频、音频领域已成熟
    • 文本加入后,真正的"统一生成模型"成为可能

技术演进方向

  • 更大规模:Mercury 3是否会挑战GPT-5、Claude 4?
  • 开源生态:目前暂无开源计划,但API兼容OpenAI标准
  • 应用场景:代码生成、创意写作、实时对话

八、如何体验

Mercury 2已开放公测:

  • 体验地址:https://chat.inceptionlabs.ai/
  • API:兼容OpenAI标准,可直接替换

参考资源

  • 官方博客:https://www.inceptionlabs.ai/blog/introducing-mercury-2
  • SEDD论文:https://arxiv.org/abs/2310.16834
  • ICML 2024最佳论文:Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution

结语:Mercury 2证明了一件事——自回归不是大模型的唯一答案。当AI从"打字机"变成"编辑",我们或许正在见证下一代语言模型的诞生。


本文撰写于 2026年2月26日

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录