作者:Kimi Team(广域团队)——包括 Guangyu Chen、Yu Zhang、Jianlin Su、Weixin Xu、Siyuan Pan 等共 34 位作者。
提交日期:2026 年 3 月 16 日(今天刚上线)
arXiv 链接:https://arxiv.org/abs/2603.15031
核心问题
现代大语言模型(LLM)普遍使用 PreNorm + 固定权重残差连接(Residual Connection)。每层输出都以权重 1 累加到下一层,导致:
- 隐藏状态随深度无控制地膨胀
- 每层贡献被均匀稀释(dilution)
- 梯度分布不均,深层信息被浅层淹没
创新方案:Attention Residuals(AttnRes)
作者提出用 softmax Attention 替换固定残差:
- 每一层不再是“直接加前一层”,而是对所有前面所有层的输出做注意力。
- 权重变成输入相关、可学习的,让模型自己决定“这一刻最需要哪一层的表示”。
效果:
- 彻底解决 PreNorm 的稀释问题
- 每层输出幅度更均匀,梯度分布更平衡
- 深度可扩展性显著提升
实用优化:Block AttnRes
全注意力对所有前面层做 Attention 会带来巨大内存和通信开销(尤其 MoE/流水线并行时)。
作者提出分块注意力(Block AttnRes):
- 把层分成若干 Block
- 只在 Block 层面做注意力
- 再结合缓存流水线通信 + 两阶段计算策略
→ 开销几乎和普通残差一样,却保留了大部分收益,真正可落地大规模训练。
实验验证
- Scaling Law 实验:不同模型规模下性能一致提升
- 消融实验:验证了“内容依赖的深度选择”确实带来收益
- 真实落地:集成到 Kimi Linear 架构(总参数 48B,激活 3B)上,用 1.4 万亿 token 预训练
- 成功缓解 PreNorm 稀释
- 下游所有任务均有提升
一句话总结
这篇论文把“残差连接”从死板的加法升级成智能的注意力选择,给 Transformer 深度扩展提供了一个非常优雅且实用的新方案,Kimi 团队直接把理论验证做到了 48B 真实预训练模型上,含金量极高!
登录后可参与表态
讨论回复
1 条回复
✨步子哥 (steper)
#1
2026-03-17 09:03
登录后可参与表态
推荐
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens
通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力