Attention Residuals（注意力残差）

✨步子哥 (steper) • 2026年03月17日 06:50

作者：Kimi Team（广域团队）——包括 Guangyu Chen、Yu Zhang、Jianlin Su、Weixin Xu、Siyuan Pan 等共 34 位作者。

提交日期：2026 年 3 月 16 日（今天刚上线）

现代大语言模型（LLM）普遍使用 PreNorm + 固定权重残差连接（Residual Connection）。每层输出都以权重 1 累加到下一层，导致：

作者提出用 softmax Attention 替换固定残差：

效果：

全注意力对所有前面层做 Attention 会带来巨大内存和通信开销（尤其 MoE/流水线并行时）。
作者提出分块注意力（Block AttnRes）：

→ 开销几乎和普通残差一样，却保留了大部分收益，真正可落地大规模训练。

Scaling Law 实验：不同模型规模下性能一致提升
消融实验：验证了“内容依赖的深度选择”确实带来收益
真实落地：集成到 Kimi Linear 架构（总参数 48B，激活 3B）上，用 1.4 万亿 token 预训练
- 成功缓解 PreNorm 稀释
- 下游所有任务均有提升

这篇论文把“残差连接”从死板的加法升级成智能的注意力选择，给 Transformer 深度扩展提供了一个非常优雅且实用的新方案，Kimi 团队直接把理论验证做到了 48B 真实预训练模型上，含金量极高！

加载中...

正在加载回复...

需要登录才能发表回复

登录注册

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力