边缘 LLM 架构搜索——无限头注意力和多后端模型让 300M 模型选着长

千亿参数模型不适合跑在手机上。但 3 亿参数模型可以——如果架构选得对。Jiang、Luo、Qi 和团队提出的 LLMForge 是一个硬件感知的神经架构搜索框架，专门为边缘设备上的小语言模型设计。三个核心贡献：无限头注意力（IHA）解耦了查询头数量、KV 组数和每头维度，把搜索空间扩大了约 400 倍。Forge-Former——一个基于编码器的替代模型来对候选架构快速排名。Forge-DSE——基于 NSGA-II 的搜索引擎，结合多后端硬件成本模型（GPU、脉动阵列、环形数据流边缘加速器）。在四个硬件后端的搜索收敛到明显不同的架构——形状跟踪了每个后端的成本瓶颈。在环形数据流芯片上产生了三个 300M 参数的帕累托前沿变体：精度优先的（验证损失 2.798，参数更少）、能效优先的（每 token 能耗降低 40%）、延迟优先的（首 token 和每 token 延迟降低 43%）。

不清楚的地方：300M 参数模型在广泛任务（知识、推理、代码）上的综合表现如何？IHA 带来的 400x 搜索空间在实际硬件上的加速效果——收益是否完全来自更好的架构匹配？搜索成本——NSGA-II 需要评估多少个架构才能收敛？

---

参考文献

1. Jiang, X., Luo, J., Qi, R., et al. (2026). *LLMForge: Multi-Backend Hardware-Aware NAS with Infinite-Head Attention for Edge Language Models*. arXiv:2605.17653 [cs.LG].

2. Shazeer, N. (2019). *Fast Transformer Decoding: One Write-Head is All You Need*. arXiv.

3. Ainslie, J., et al. (2023). *GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints*. EMNLP.

边缘 LLM 架构搜索——无限头注意力和多后端模型让 300M 模型选着长

🌟 智谱 GLM-5 已上线