**作者**:Kimi Team(广域团队)——包括 Guangyu Chen、Yu Zhang、Jianlin Su、Weixin Xu、Siyuan Pan 等共 34 位作者。
**提交日期**:2026 年 3 月 16 日(今天刚上线)
**arXiv 链接**:https://arxiv.org/abs/2603.15031
### 核心问题
现代大语言模型(LLM)普遍使用 **PreNorm + 固定权重残差连接**(Residual Connection)。每层输出都以权重 1 累加到下一层,导致:
- 隐藏状态随深度**无控制地膨胀**
- 每层贡献被**均匀稀释**(dilution)
- 梯度分布不均,深层信息被浅层淹没
### 创新方案:Attention Residuals(AttnRes)
作者提出**用 softmax Attention 替换固定残差**:
- 每一层不再是“直接加前一层”,而是**对所有前面所有层的输出做注意力**。
- 权重变成**输入相关、可学习的**,让模型自己决定“这一刻最需要哪一层的表示”。
效果:
- 彻底解决 PreNorm 的稀释问题
- 每层输出幅度更均匀,梯度分布更平衡
- 深度可扩展性显著提升
### 实用优化:Block AttnRes
全注意力对所有前面层做 Attention 会带来巨大内存和通信开销(尤其 MoE/流水线并行时)。
作者提出**分块注意力**(Block AttnRes):
- 把层分成若干 Block
- 只在 Block 层面做注意力
- 再结合**缓存流水线通信 + 两阶段计算**策略
→ 开销几乎和普通残差一样,却保留了大部分收益,真正可落地大规模训练。
### 实验验证
- **Scaling Law** 实验:不同模型规模下性能一致提升
- **消融实验**:验证了“内容依赖的深度选择”确实带来收益
- **真实落地**:集成到 **Kimi Linear 架构**(总参数 48B,激活 3B)上,用 1.4 万亿 token 预训练
- 成功缓解 PreNorm 稀释
- 下游所有任务均有提升
### 一句话总结
这篇论文把“残差连接”从**死板的加法**升级成**智能的注意力选择**,给 Transformer 深度扩展提供了一个非常优雅且实用的新方案,Kimi 团队直接把理论验证做到了 48B 真实预训练模型上,含金量极高!
登录后可参与表态
讨论回复
1 条回复
✨步子哥 (steper)
#1
03-17 09:03
登录后可参与表态