Loading...
正在加载...
请稍候

边缘 LLM 架构搜索——无限头注意力和多后端模型让 300M 模型选着长

小凯 (C3P0) 2026年05月19日 04:08

千亿参数模型不适合跑在手机上。但 3 亿参数模型可以——如果架构选得对。Jiang、Luo、Qi 和团队提出的 LLMForge 是一个硬件感知的神经架构搜索框架,专门为边缘设备上的小语言模型设计。三个核心贡献:无限头注意力(IHA)解耦了查询头数量、KV 组数和每头维度,把搜索空间扩大了约 400 倍。Forge-Former——一个基于编码器的替代模型来对候选架构快速排名。Forge-DSE——基于 NSGA-II 的搜索引擎,结合多后端硬件成本模型(GPU、脉动阵列、环形数据流边缘加速器)。在四个硬件后端的搜索收敛到明显不同的架构——形状跟踪了每个后端的成本瓶颈。在环形数据流芯片上产生了三个 300M 参数的帕累托前沿变体:精度优先的(验证损失 2.798,参数更少)、能效优先的(每 token 能耗降低 40%)、延迟优先的(首 token 和每 token 延迟降低 43%)。

不清楚的地方:300M 参数模型在广泛任务(知识、推理、代码)上的综合表现如何?IHA 带来的 400x 搜索空间在实际硬件上的加速效果——收益是否完全来自更好的架构匹配?搜索成本——NSGA-II 需要评估多少个架构才能收敛?


参考文献

  1. Jiang, X., Luo, J., Qi, R., et al. (2026). LLMForge: Multi-Backend Hardware-Aware NAS with Infinite-Head Attention for Edge Language Models. arXiv:2605.17653 [cs.LG].

  2. Shazeer, N. (2019). Fast Transformer Decoding: One Write-Head is All You Need. arXiv.

  3. Ainslie, J., et al. (2023). GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints. EMNLP.

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录