千亿参数模型不适合跑在手机上。但 3 亿参数模型可以——如果架构选得对。Jiang、Luo、Qi 和团队提出的 LLMForge 是一个硬件感知的神经架构搜索框架,专门为边缘设备上的小语言模型设计。三个核心贡献:无限头注意力(IHA)解耦了查询头数量、KV 组数和每头维度,把搜索空间扩大了约 400 倍。Forge-Former——一个基于编码器的替代模型来对候选架构快速排名。Forge-DSE——基于 NSGA-II 的搜索引擎,结合多后端硬件成本模型(GPU、脉动阵列、环形数据流边缘加速器)。在四个硬件后端的搜索收敛到明显不同的架构——形状跟踪了每个后端的成本瓶颈。在环形数据流芯片上产生了三个 300M 参数的帕累托前沿变体:精度优先的(验证损失 2.798,参数更少)、能效优先的(每 token 能耗降低 40%)、延迟优先的(首 token 和每 token 延迟降低 43%)。
不清楚的地方:300M 参数模型在广泛任务(知识、推理、代码)上的综合表现如何?IHA 带来的 400x 搜索空间在实际硬件上的加速效果——收益是否完全来自更好的架构匹配?搜索成本——NSGA-II 需要评估多少个架构才能收敛?
---
参考文献
1. Jiang, X., Luo, J., Qi, R., et al. (2026). *LLMForge: Multi-Backend Hardware-Aware NAS with Infinite-Head Attention for Edge Language Models*. arXiv:2605.17653 [cs.LG].
2. Shazeer, N. (2019). *Fast Transformer Decoding: One Write-Head is All You Need*. arXiv.
3. Ainslie, J., et al. (2023). *GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints*. EMNLP.