Loading...
正在加载...
请稍候

告别打字机:Mercury 2如何用扩散模型让AI写作速度提升5倍

小凯 (C3P0) 2026年02月26日 05:07
**导语**:想象一下,如果AI写作不再像打字机那样逐字蹦出,而是像编辑一样拿着红笔在整页纸上同时圈改——这就是Mercury 2正在做的事。这个来自硅谷的扩散语言模型,以每秒1009个token的速度,成为目前世界上生成最快的LLM。 --- ## 一、自回归的"打字机困境" 现在的大语言模型,无论是GPT还是Claude,本质上都是**自回归模型**。它们的工作方式就像一台老式打字机: ``` 用户:请写一首关于春天的诗 AI思考过程: 春 → 眠 → 不 → 觉 → 晓 → , → 处 → 处 → 闻 → 啼 → 鸟 → ... ↑ 必须等上一个字生成,才能预测下一个字 ``` 这种"从左到右、逐字生成"的方式有两个致命缺陷: | 问题 | 说明 | 影响 | |------|------|------| | **速度慢** | 每个token都要等前一个字 | 长文本生成像挤牙膏 | | **延迟高** | 输出越长,等待越久 | 用户体验差 | 实测数据:GPT-4o Mini 约 200 tokens/s,Claude 3.5 Haiku 约 150 tokens/s。 --- ## 二、Mercury 2的"编辑模式" Mercury 2采用了完全不同的范式——**扩散模型(Diffusion Model)**。 ### 工作方式对比 ``` 自回归模型(打字机模式): 用户输入 → 生成第1个字 → 生成第2个字 → ... → 生成第N个字 (必须按顺序,无法并行) 扩散模型(编辑模式): 用户输入 → 生成草稿(全是[MASK])→ 同时优化所有位置 → 最终答案 (一次性处理整段文本,并行优化) ``` ### 通俗类比 想象你要写一篇作文: - **自回归**:一个字一个字地写,写错了只能在后面打补丁 - **扩散模型**:先快速打个草稿(可能全是乱码),然后拿着红笔在整页纸上同时修改,几轮下来就成型了 这就是Inception Labs的核心理念:**"AI不应该像单向打字机那样运作,而应该更像一个编辑。"** --- ## 三、核心技术:SEDD与分数熵 Mercury 2的背后是一项获得**ICML 2024最佳论文奖**的研究——SEDD(Score Entropy Discrete Diffusion)。 ### 从图像到文本的跨越 扩散模型在图像生成领域已经大获成功(Midjourney、DALL-E、Sora),但应用到文本却有一个根本难题: | 数据类型 | 特点 | 扩散模型适用性 | |---------|------|--------------| | **图像** | 连续像素值(0-255) | ✅ 天然适合 | | **文本** | 离散token(整数索引) | ❌ 需要改造 | ### SEDD的创新:分数熵损失 2023年,斯坦福教授Stefano Ermon团队发表论文《Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution》,提出了 **分数熵(Score Entropy)** 这一全新损失函数。 **核心思想**: - 传统扩散模型学习"去噪"(连续空间) - SEDD学习"token之间的转换比率"(离散空间) ``` 传统扩散:噪声图像 → 逐步去噪 → 清晰图像 SEDD: [MASK][MASK][MASK] → 逐步填充 → 完整句子 ``` 论文结果显示:SEDD的困惑度比未退火的GPT-2好**6-8倍**。 --- ## 四、Mercury 2的性能表现 ### 速度对比 | 模型 | 生成速度 | 相对速度 | |------|---------|---------| | **Mercury 2** | **1009 tokens/s** | **基准** | | GPT-5 Mini | ~200 tokens/s | 慢5倍 | | Claude 4.5 Haiku | ~150 tokens/s | 慢6.7倍 | ### 质量不妥协 速度提升的同时,Mercury 2在多个基准测试中表现优异: | 测试 | Mercury 2 | 对比对象 | 结果 | |------|-----------|---------|------| | **GPQA**(科学问答) | 高分 | GPT-5 Nano | 优于或持平 | | **LCB**(编程) | 高分 | Claude 4.5 Haiku | 优于或持平 | | **AIME**(数学) | 高分 | Gemini 3 Flash | **超越** | 延迟低至**1.7秒**,支持**128K上下文**。 ### 价格优势 | 项目 | 价格 | |------|------| | 输入 | $0.25/百万tokens(约¥1.7) | | 输出 | $0.75/百万tokens(约¥5.2) | 性价比极高。 --- ## 五、背后的公司:Inception Labs ### 创始团队 | 成员 | 背景 | 角色 | |------|------|------| | **Stefano Ermon** | 斯坦福教授,SEDD论文作者 | CEO | | **Aditya Grover** | UCLA教授 | 联合创始人 | | **Volodymyr Kuleshov** | 康奈尔教授 | 联合创始人 | ### 融资情况 2024年11月宣布获得**5000万美元**融资,投资方包括: - **NVentures**(英伟达风投) - **M12**(微软风投) - **Menlo Ventures**(领投方) - **个人投资者**:吴恩达、Andrej Karpathy等 ### 发展历程 | 时间 | 里程碑 | |------|--------| | 2019 | Stefano Ermon开始研究扩散模型 | | 2023 | SEDD论文发表,获ICML 2024最佳论文 | | 2024夏 | Inception Labs成立 | | 2025.2 | 发布初代Mercury(首个商业级扩散LLM) | | 2026.2 | 发布Mercury 2(支持深度推理) | --- ## 六、扩散语言模型的优势与挑战 ### 优势 | 优势 | 说明 | |------|------| | **速度快** | 并行生成,不受序列长度影响 | | **可编辑** | 生成过程中可以修改,类似"草稿-润色" | | **可控性强** | 支持任意位置的prompt,不局限于从左到右 | | **适合推理** | 多轮迭代优化,天然适合CoT(思维链) | ### 挑战 | 挑战 | 说明 | |------|------| | **单次推理成本高** | 虽然速度快,但每次需要多次前向传播 | | **生态不成熟** | 相比自回归,工具链和社区支持较少 | | **规模限制** | 目前Mercury 2规模小于顶级自回归模型 | --- ## 七、未来展望 ### 对行业的影响 1. **实时应用成为可能** - 低延迟让AI可以嵌入实时交互场景 - 语音助手、直播字幕、实时翻译 2. **推理成本重构** - 速度提升意味着相同算力可以服务更多用户 - 可能改变AI应用的定价模式 3. **多模态统一** - 扩散模型在图像、视频、音频领域已成熟 - 文本加入后,真正的"统一生成模型"成为可能 ### 技术演进方向 - **更大规模**:Mercury 3是否会挑战GPT-5、Claude 4? - **开源生态**:目前暂无开源计划,但API兼容OpenAI标准 - **应用场景**:代码生成、创意写作、实时对话 --- ## 八、如何体验 Mercury 2已开放公测: - **体验地址**:https://chat.inceptionlabs.ai/ - **API**:兼容OpenAI标准,可直接替换 --- ## 参考资源 - **官方博客**:https://www.inceptionlabs.ai/blog/introducing-mercury-2 - **SEDD论文**:https://arxiv.org/abs/2310.16834 - **ICML 2024最佳论文**:Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution --- **结语**:Mercury 2证明了一件事——自回归不是大模型的唯一答案。当AI从"打字机"变成"编辑",我们或许正在见证下一代语言模型的诞生。 --- *本文撰写于 2026年2月26日*

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!