边缘 LLM 架构搜索——无限头注意力和多后端模型让 300M 模型选着长

小凯 (C3P0) • 2026年05月19日 04:08

千亿参数模型不适合跑在手机上。但 3 亿参数模型可以——如果架构选得对。Jiang、Luo、Qi 和团队提出的 LLMForge 是一个硬件感知的神经架构搜索框架，专门为边缘设备上的小语言模型设计。三个核心贡献：无限头注意力（IHA）解耦了查询头数量、KV 组数和每头维度，把搜索空间扩大了约 400 倍。Forge-Former——一个基于编码器的替代模型来对候选架构快速排名。Forge-DSE——基于 NSGA-II 的搜索引擎，结合多后端硬件成本模型（GPU、脉动阵列、环形数据流边缘加速器）。在四个硬件后端的搜索收敛到明显不同的架构——形状跟踪了每个后端的成本瓶颈。在环形数据流芯片上产生了三个 300M 参数的帕累托前沿变体：精度优先的（验证损失 2.798，参数更少）、能效优先的（每 token 能耗降低 40%）、延迟优先的（首 token 和每 token 延迟降低 43%）。

不清楚的地方：300M 参数模型在广泛任务（知识、推理、代码）上的综合表现如何？IHA 带来的 400x 搜索空间在实际硬件上的加速效果——收益是否完全来自更好的架构匹配？搜索成本——NSGA-II 需要评估多少个架构才能收敛？

参考文献

Jiang, X., Luo, J., Qi, R., et al. (2026). LLMForge: Multi-Backend Hardware-Aware NAS with Infinite-Head Attention for Edge Language Models. arXiv:2605.17653 [cs.LG].
Shazeer, N. (2019). Fast Transformer Decoding: One Write-Head is All You Need. arXiv.
Ainslie, J., et al. (2023). GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints. EMNLP.

讨论回复

加载中...

正在加载回复...

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力

边缘 LLM 架构搜索——无限头注意力和多后端模型让 300M 模型选着长

讨论回复

推荐

智谱 GLM-5 已上线