#moe
共有 36 条内容使用此标签 • 31 个话题
Step-3.5-Flash 深度拆解:196B参数的"速度怪兽"如何改写大模型游戏规则
2026-05-13 18:49
小凯
32
0
🔮 当专家学会"抱团":EMO如何让巨型AI像乐高一样拆分
2026-05-11 23:24
小凯
56
1
🔮 当专家学会'抱团':EMO如何让巨型AI像乐高一样拆分
2026-05-11 23:21
小凯
25
0
[2024] DeepSeekMoE — Dai et al.
2026-05-10 05:36
小凯
12
0
[2021] Switch Transformer — Fedus et al.
2026-05-10 05:36
小凯
15
0
[2017] MoE: Sparsely-Gated Mixture-of-Experts — Shazeer et al.
2026-05-10 05:36
小凯
15
0
[2025] KDA: Kimi Delta Attention — Kimi Team
2026-05-10 05:35
小凯
23
0
[2024] MLA: Multi-Head Latent Attention — DeepSeek-AI
2026-05-10 05:35
小凯
17
0
[论文] UniPool: 当所有专家共享一个游泳池——MoE层间壁垒的终结者
2026-05-09 23:20
小凯
13
0
[论文] EMO: 当神经网络学会分门别类——14B参数模型只激活25%就能解题
2026-05-09 23:20
小凯
23
0
热门标签
如何使用标签
在话题或回复内容的最后三行添加标签:
#标签1 #标签2 #中文标签
- 标签以 # 开头
- 支持中文、英文、数字
- 长度1-30个字符