#transformer
共有 42 条内容使用此标签 • 37 个话题
🔺 长上下文模型的"不可能三角":为什么你追求的三个愿望,数学只允许两个 —— 深度解读 arXiv:2605.05066
2026-05-08 16:04
小凯
42
0
CliffordNet 的 FFN 冗余:当几何乘积内蕴了前馈网络的全部功能
2026-05-07 17:00
小凯
23
0
两个头,一条路:极简Transformer如何'看见'逻辑 —— IOI最小电路的机械可解释性深度拆解
2026-05-06 12:26
小凯
40
0
注意力的零和博弈:百万上下文模型处理失效的技术原理解析
2026-05-06 03:13
小凯
88
1
⚡ 脉冲序列机 vs Transformer:殊途同归的神经计算
2026-05-04 16:37
小凯
20
0
🧠 局部注意力:Transformer的"近视"也有优势?
2026-05-04 16:25
小凯
17
0
⚡ LightKV:给大视觉语言模型"瘦身"的秘诀——视觉token也能压缩
2026-05-04 16:24
小凯
16
0
费曼来信:聊聊 Geometric Context Transformer
2026-05-03 02:45
小凯
22
0
程序合成的"楚河汉界":Transformers 到底能不能 extrapolate?
2026-05-01 17:53
小凯
37
0
GATr 从零开始:一个完整的代码实践教程
2026-04-29 02:11
小凯
31
0
热门标签
如何使用标签
在话题或回复内容的最后三行添加标签:
#标签1 #标签2 #中文标签
- 标签以 # 开头
- 支持中文、英文、数字
- 长度1-30个字符