Sakana AI 发布 Fugu Ultra——把「多智能体编排」封装成单一模型,对位 Anthropic 旗舰
> 类别:LLM 网关 / 多模型入口(编排型) · 时间:2026-06-22 · 来源:Sakana AI 官方博客、技术报告 arXiv 2606.21228
事件内容
6 月 22 日,日本东京 AI 公司 Sakana AI 正式发布 Sakana Fugu 与 Sakana Fugu Ultra——一个把整套多智能体编排系统封装为单一基础模型的旗舰产品线。这家曾获 NVIDIA、Google 等巨头投资的日本新创,正在用「多智能体编排」作为与 Anthropic 旗舰模型对位的差异化路线。
核心产品定位:
- 用户调用一个 API 端点即可访问两个模型
- OpenAI 兼容接口——任何用 OpenAI SDK 的应用可以无缝切换
- 简单任务直接解决,复杂任务 Fugu 在内部组建并协调专家模型团队
- 模型选择、任务委派、验证、综合——所有多智能体系统的复杂性都被封装在模型内部,调用方代码完全无感
| 维度 | Fugu | Fugu Ultra |
|---|---|---|
| 定位 | 日常工作的默认选择 | 硬核多步问题的极致质量 |
| 性能与延迟 | 强性能 + 低延迟平衡 | 最大化答案质量 |
| 智能体池 | 协调较浅的专家池 | 协调更深的专家池 |
| 适用场景 | Codex 编码 / 代码审查 / 聊天机器人 / 交互式服务 | AI 研究 / 论文复现 / 网络安全分析 / 文献与专利调查 |
- 在最严苛的工程、科学、推理 benchmark 上,与 Anthropic Fable 5、Mythos Preview 肩并肩
- 故意不调用 Fable 5 / Mythos Preview(它们不公开访问)——这本身是关键卖点
- 在 AutoResearch、Rubik's Cube、Mechanical Design、Japanese Handwriting Analysis、One-Shot Chess、Financial Time Series Prediction 等 6 个真实应用场景中,持续超过 Gemini 3.1 Pro (high)、Opus 4.8 (max)、GPT 5.5 (xhigh)
- 关于「AI 主权」的关键叙事:通过多供应商编排,消除单点依赖——当某个供应商限制访问时,Fugu 自动绕开
- Fugu 本身是一个语言模型,专门训练用来「协调」——决定何时委派任务、智能体之间如何通信、如何把多个智能体的成果综合成单一可靠答案
- 关键技术来自两篇 ICLR 2026 论文:
- Trinity:An Evolved LLM Coordinator(arxiv 2512.04695)
- Conductor:Learning to Orchestrate Agents in Natural Language(arxiv 2512.04388)
- 自递归调用:Fugu 可以调用包括自身实例在内的智能体池中的各种 LLM,支持递归调用(recursively call itself)
- 智能体池完全可替换——用户可出于数据隐私、合规要求,将特定智能体排除在池外
- Fugu Ultra 智能体池里没有 Fable 5 和 Mythos Preview——这两个模型因出口管制受限,Sakana 借此把「AI 主权」作为核心卖点
- 订阅制(Subscription Tiers)+ 按量付费(Pay-as-you-go)双模式
- 约 500 名 beta 测试用户反馈:长会话中角色稳定性极强、其他模型会「漂移」而 Fugu 不会
- 入口:sakana.ai/fugu/ + console.sakana.ai
深度剖析
Fugu Ultra 表面是「日本 AI 公司发了个产品」,但它切的是 AI 行业 2026 年最尖锐的结构性议题——「AI 主权」与「单点依赖」。拆几层看:
1. 「AI 主权」是 Fugu Ultra 的真正故事
2026 年 6 月 12 日,Anthropic 公告:美国政府发布出口管制指令,暂停所有对 Fable 5 和 Mythos Preview 的访问(详见 https://www.anthropic.com/news/fable-mythos-access)。这意味着——
- 直接调用 Anthropic 顶级模型这条路对部分客户已经走不通
- AI 应用对单一供应商的依赖成为真实的、显性的、不可忽视的风险
- 「AI 主权」从概念变成了实际的产品需求
- 多供应商编排——不再绑定到任何一家
- 公开声明不调用 Fable 5 / Mythos Preview——这恰好是 Anthropic 受限的两个旗舰
- 「如果某个供应商限制访问,Fugu 自动绕开」——这是产品级承诺
2. 「把多智能体编排封装成单一模型」——这是个非常深的设计选择
过去两年,多智能体系统的实现方式有两条路线:
- A 路线:应用层编排——LangGraph、AutoGen、CrewAI 在应用代码里「用 LLM 调用 LLM」
- B 路线:模型层编排——Fugu Ultra 走的路,把「协调」本身训练成一个语言模型
- 调用方完全无感——一个 OpenAI 兼容 API 即可,背后是不是 1 个模型还是 10 个模型协调完成,调用方不需要知道
- 「协调」是可学习的——Fugu 不靠手工规则,靠 Trinity / Conductor 论文里提出的「学习到的协调器」
- 递归调用——Fugu 可以调自己,意味着理论上可以「层层委派」无限深的任务树
3. Fugu Ultra vs Fable 5 / Mythos Preview——「肩并肩」的工程含义
Sakana 公开声称 Fugu Ultra 与 Anthropic Fable 5、Mythos Preview 「shoulder-to-shoulder」——这个声明有几层含义:
- 学术严谨——评测覆盖工程、科学、推理、agentic 四个维度的标准 benchmark
- 基线对比——基线是各模型供应商自报的得分(SWE 相关任务用 mini-swe-agent 做脚手架)
- 领域选择——特意挑了 Fugu Ultra 占优的 6 个真实应用场景(AutoResearch、Rubik's Cube、Mechanical Design、Japanese Handwriting Analysis、One-Shot Chess、Financial Time Series Prediction)作为宣传重点
4. 与 OpenRouter、Portkey、LiteLLM 的关系——Sakana 不是 LLM 网关,是「AI 主权版 LLM 网关」
把 Fugu 放在 LLM 网关地图上看:
- OpenRouter / Portkey / LiteLLM = 通用 LLM 网关,按 cost / latency / 质量路由
- Fugu = 用模型层编排的多智能体系统,按「任务难度」自动调整是否走多模型
5. 日本 AI 行业的战略回血
Sakana AI 由 David Ha(前 Google Brain 研究员)与 Llion Jones(Transformer 论文共同作者之一)于 2023 年创立。Fugu Ultra 是日本 AI 行业在 2026 年的关键产品级回血:
- 技术输出——Trinity、Conductor 论文被 ICLR 2026 接收,证明日本 AI 研究的国际能见度
- 资本背书——NVIDIA、Google 等巨头投资,意味着 Sakana 在算力 + 数据 + 渠道上都有战略级支持
- 地缘政治卡位——在美中 AI 出口管制愈演愈烈的背景下,「日本 AI 主权」是一个新崛起的概念
值得关注的原因
- 对 AI 应用开发者:Fugu Ultra 给了一个「一个 API 顶多模型」的简化路径——不再需要为不同任务接不同供应商的 API,不再需要自己写多智能体编排逻辑。OpenAI 兼容接口 + 多智能体封装 = 开发者体验的极简。
- 对 AI 主权 / 出口管制敏感的客户(金融机构、政府、医疗、关键基础设施):Fugu Ultra 是「不用绑定任何单一供应商 + 不依赖美国出口管制豁免」的产品级答案。这是 Fugu Ultra 在 2026 下半年最有可能大规模铺开的客户群。
- 对 AI Agent 行业:Fugu Ultra 把「多智能体编排」从「应用层 hack」推到了「模型层原生」——这种「用模型编排模型」可能成为 2026 下半年新一代 agent 框架的范式。OpenAI、Anthropic、Google DeepMind 都会在 6-12 个月内推出对位研究。
- 对日本 AI 行业:Sakana AI 用 Fugu Ultra 证明了日本 AI 行业不只是「论文 + 研究员」,还是「产品 + 商业 + 地缘政治卡位」——这与日本传统制造业的「精密 + 严谨」路线深度契合。
- 对 LLM 网关赛道:OpenRouter、Portkey、LiteLLM 都会被迫思考:「在 Sakana 这种「模型层编排」面前,传统 LLM 网关还剩多少护城河?」——这是一道必须回答的产品哲学题。
- 对 Anthropic / OpenAI 自身:Fugu Ultra 直接对位「AI 主权」这个痛点,对 Anthropic、OpenAI 来说意味着「我们的客户可能正在寻找不依赖我们的备选」——这会倒逼这两家公司思考「如何在「AI 主权」叙事上对位」。
风险与待观察
- 「肩并肩」声明的严谨度。Sakana 公开承认「基线得分是各模型供应商自报的得分」——自报得分往往偏高。Fugu Ultra 与 Fable 5 / Mythos Preview 的「肩并肩」在独立第三方评测下能复现多少,需要 3-6 个月的业界 benchmark 验证。
- 「Fable 5 / Mythos Preview 不在 Fugu Ultra 智能体池里」是双刃剑。这个声明既是 AI 主权的卖点,也是性能的硬约束——如果 Fable 5 / Mythos Preview 在某些任务上仍然最强,Fugu Ultra 因为不调用它们,在这些任务上会输。Sakana 需要在「AI 主权」与「性能」之间持续做平衡。
- 多智能体协调的「边际收益」问题。当任务简单时,单个 LLM 表现更好;当任务复杂时,多智能体协调才有价值。Fugu Ultra 能否在「何时用多智能体、何时用单模型」上做精准判断——决定它的实际表现是否稳定。
- OpenAI 兼容接口的「兼容性深度」。OpenAI API 有大量 tool calling、function calling、structured output、tool use 的细节——Fugu 的 OpenAI 兼容是 100% 兼容还是 80% 兼容——决定它能不能无缝替换现有 OpenAI 集成的应用。
- 「递归调用自己」的工程稳定性。递归调用理论上可以无限深,但实际工程中上下文管理、token 消耗、循环检测、错误恢复——这些都是 Fugu 必须自己解决的工程难题。
- 日本 AI 行业的「商业化速度」问题。Sakana AI 2023 年才成立,Fugu Ultra 是不是真的能跑通订阅制 + 按量付费的商业模式——决定日本 AI 行业能不能持续产出下一代产品。
来源:https://sakana.ai/fugu-release/ · https://arxiv.org/abs/2606.21228 · https://github.com/SakanaAI/fugu/
🌟 智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
🎁 领取 2000万 Tokens