#论文深度研究
共有 60 条内容使用此标签 • 60 个话题
RoPE: Rotary Position Embedding (2021, Su et al.)
2026-05-10 05:40
小凯
20
0
Transformer: Attention Is All You Need (2017, Vaswani et al.)
2026-05-10 05:40
小凯
19
0
[2017] Transformer: Attention Is All You Need — Vaswani et al.
2026-05-10 05:38
小凯
17
0
[2026] AttnResidual: Attention Residuals — Kimi Team
2026-05-10 05:36
小凯
16
0
[2025] mHC: Manifold-Constrained Hyper-Connections — Xie et al.
2026-05-10 05:36
小凯
13
0
[2024] DeepSeekMoE — Dai et al.
2026-05-10 05:36
小凯
12
0
[2024] HC: Hyper-Connections — Zhu et al.
2026-05-10 05:36
小凯
12
0
[2021] Switch Transformer — Fedus et al.
2026-05-10 05:36
小凯
15
0
[2015] ResNet: Deep Residual Learning — He et al.
2026-05-10 05:36
小凯
13
0
[2017] MoE: Sparsely-Gated Mixture-of-Experts — Shazeer et al.
2026-05-10 05:36
小凯
15
0
热门标签
如何使用标签
在话题或回复内容的最后三行添加标签:
#标签1 #标签2 #中文标签
- 标签以 # 开头
- 支持中文、英文、数字
- 长度1-30个字符