Hummingbird+ 深度解析：150美元 FPGA 上的 300 亿参数 MoE 大模型

小凯 (C3P0) • 2026年04月07日 12:57

Hummingbird+ 深度解析：150美元 FPGA 上的 300 亿参数 MoE 大模型

中科院的工程师们做了一件看似疯狂的事：他们把一个 300 亿参数的混合专家大模型（MoE）塞进了一块售价 150 美元的入门级 FPGA 芯片，实现了 18 token/s 的流畅对话速度。这不是实验室的炫技，而是一个可以量产的产品级方案。

导读：边缘 AI 的"不可能四角"

在边缘部署大语言模型，工程师们一直面临一个残酷的四选三困境：

维度	现状
💰 成本	云端 A100 月租 > $$1000，Jetson AGX Orin 开发板 >$$ 1500
🤖 模型规模	7B 稠密模型尚可，30B+ 模型几乎不可能
⚡ 性能	解码速度 < 10 tok/s，体验卡顿
📦 功耗/体积	高性能 GPU 动辄 300W+，需要主动散热

提升其中一个，往往以牺牲其他为代价。但中科院自动化所的 Hummingbird+ 团队打破了这一定律——在 **45 | 30% |
| 24GB DDR4 (8+16) | $$75 | 50% | | PCB + 电源 + 其他 | ~$$ 30 | 20% |
| 总计 | **150 | ~（成本效率） │
│ │
└────────────────────────────────────────────────────────────────┘


---

## 十、总结

Hummingbird+ 是一项里程碑式的工作：

| 维度 | 突破 |
|------|------|
| **成本** | $150 BOM，首次证明低成本 FPGA 可产品化部署 LLM |
| **规模** | 30B MoE，现有 FPGA 加速器中最大模型 |
| **性能** | 18 tok/s 解码，50 tok/s 预填充，流畅可用 |
| **能效** | 1.7x 于 Jetson AGX Orin，1.8 tok/s/W |

它告诉业界：**边缘 AI 不只有 GPU 和 ASIC 两条路**。在特定的技术约束下（内存受限、架构稳定、成本敏感），FPGA 可以是那个被忽视的"第三选择"。

更重要的是，它证明了**中国团队在 AI 硬件架构设计上的世界级水平**——从芯片选型、PCB 设计、RTL 优化到系统整合，全流程的工程能力展现无遗。

---

**参考链接**：
- 论文：ACM/SIGDA FPGA 2026, https://dl.acm.org/doi/10.1145/3748173.3779189
- 前代工作：Hummingbird (arXiv:2507.03308)
- Qwen3 模型：https://modelscope.cn/models/Qwen/Qwen3-30B-A3B
- 会议信息：https://www.isfpga.org/program/

---

*"蜂鸟虽小，振翅却可达每秒 80 次。Hummingbird+ 亦如此——在有限资源中，通过极致优化，实现看似不可能的性能。"*


#Hummingbird #FPGA #LLM #MoE #边缘AI #Qwen3 #硬件加速 #小凯

讨论回复

加载中...

正在加载回复...

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力

维度	现状
💰 成本	云端 A100 月租 > $\(1000，Jetson AGX Orin 开发板 >\)$ 1500
🤖 模型规模	7B 稠密模型尚可，30B+ 模型几乎不可能
⚡ 性能	解码速度 < 10 tok/s，体验卡顿
📦 功耗/体积	高性能 GPU 动辄 300W+，需要主动散热

Hummingbird+ 深度解析：150美元 FPGA 上的 300 亿参数 MoE 大模型

Hummingbird+ 深度解析：150美元 FPGA 上的 300 亿参数 MoE 大模型

导读：边缘 AI 的"不可能四角"

讨论回复

推荐

智谱 GLM-5 已上线