「Sparser, Faster, Lighter」深度解读:把LLM的"摸鱼神经元"变成真金白银的加速
论文: Sparser, Faster, Lighter Transformer Language Models arXiv: 2603.23198v2 (2026-05-08) 作者: Edoardo Cetin*, Stefano Peluchetti*, Emilio Castillo*, Akira Naruse, Mana Murakami, Llion Jones 机构: Sakana AI + NVIDIA 代码: https://github.com/SakanaAI/sparser-faster-llms
---
一、核心悖论:稀疏是理论上的胜利,工程上的失败
1.1 一个被忽视的观察
Transformer 的 FFN 层占模型 >2/3 的参数 和 >80% 的总 FLOPs。但使用 ReLU 激活的 FFN 有一个特性:对任意给定 token,只有极少数神经元真正激活。
这就是"懒惰神经元"现象——模型是个"摸鱼达人",大部分神经元在大部分时间里都在休息。
1.2 稀疏性悖论
| 理论预期 | 工程现实 |
|---|---|
| 屏蔽休息的神经元 → 计算量大幅下降 | GPU 为密集计算高度优化,稀疏操作反而更慢 |
| 非结构化稀疏性 → 更灵活的剪枝 | 异构工作负载、索引物化开销、内存管理开销 |
| 更少的 FLOPs → 更快的推理 | 官方稀疏内核跑不过密集内核 |
过去的工作(SparseGPT、Wanda 等)要么需要大幅偏离现代训练流程,要么只在推理阶段有效,训练阶段无法维持。这篇论文的目标是:在训练和推理中同时实现高效稀疏计算。
---
二、TwELL:从"整行对齐"到"瓦片级对齐"
2.1 ELL 格式的问题
ELLPACK (ELL) 是经典的稀疏矩阵存储格式:
- 将稀疏矩阵存储为两个填充矩阵 $h_v, h_I$
- 每行非零值和列索引打包在行首,填充至全局最大非零数 $N_{nz}$
2.2 TwELL(Tile-wise ELLPACK)
核心洞察:从"整行聚焦"转向"瓦片级聚焦"。
| 特性 | ELL | TwELL |
|---|---|---|
| 对齐粒度 | 整行 | 水平 1D 瓦片(大小 $T = T_n$) |
| 存储结构 | $h_v, h_I \in \mathbb{R}^{M \times N_{nz}}$ | $h_v, h_I \in \mathbb{R}^{M \times N/C}$,$h_{nz} \in \mathbb{R}^{M \times N_T}$ |
| 瓦片内组织 | 全局行首对齐 | 每个水平瓦片内局部 ELL 式对齐 |
- $h_v$:非零值矩阵
- $h_I$:列索引矩阵
- $h_{nz}$:每瓦片非零计数
- 压缩因子 $C$:选择使 $T/C$ 高于任何瓦片内最大非零数
2.3 内核融合友好性
> "By setting the horizontal tiling dimensions to match, $T = T_n$, the TwELL format can be recovered in the same kernel performing $h_g = \text{ReLU}(xW)$ before storing the outputs to DRAM."
关键优势:
- 零额外内核启动:ReLU 计算与 TwELL 格式转换在同一个内核完成
- 零额外全局内存读取:在 mma 内核的 epilogue 阶段直接物化
- 仅需 warp 级同步:通过局部非零计数器获取存储地址
三、定制 CUDA 内核体系
3.1 推理内核 1:TwELL 构造的矩阵乘法
CTA 级逻辑: 1. 所有 CTA 并行处理输出瓦片 $(m_0, n_0)$ 2. 密集矩阵乘:$S \leftarrow x[m_0:m_0+T_m, :] \cdot W_g[:, n_0:n_0+T_n]$ 3. 逐行 ReLU + 打包:遍历 $c \in [0, T_n-1]$,若 $S[r,c]>0$ 则存入 $h_v, h_I$ 4. 存储计数:$h_{nz}[m, n_0/T_n] \leftarrow z$
底层优化:
- 异步 TMA 读写(H100 特性)
- 持久化协作设计(CUTLASS 风格流水线)
- 集群级多播
- WGMMA 指令(warp-group 级矩阵乘累加)
3.2 推理内核 2:融合的上投影与下投影
核心计算(公式3): $$y[m,:] = \sum_{t=0}^{N_T-1} \sum_{c=0}^{h_{nz}[m,t]-1} h_v[m, t \times T_n/C + c] \cdot (x[m,:] \cdot W_u[:,n]) \cdot W_d[n,:]$$
设计选择:
- 单 warp CTA:最大化并发度和 L2 缓存命中
- 外层静态展开(瓦片数),内层动态迭代(非零数)
- $h_u$ 不存储到 DRAM:内核内隐式计算
3.3 训练内核:Hybrid 格式
训练的特殊挑战: > "We find that these conditions are practically never met during LLM training as sparsity patterns exhibit significant non-uniformity across different tokens, with the maximum number of non-zeros often orders of magnitude larger than the average."
- Token 间、层间稀疏度差异极大
- 内存瓶颈:训练需存储大量中间激活和优化器状态
| 组件 | 描述 |
|---|---|
| $h_g^s$ | 紧凑 ELL 矩阵(稀疏部分) |
| $h_g^d$ | 密集备份矩阵(溢出部分) |
| $h_b$ | 二进制位置指示向量 |
- 稀疏路径:每 CTA 处理单行,静态展开累加
- 密集路径:传统 Tensor Core 瓦片内核
- 无需昂贵密集计算:利用存储的稀疏模式直接反向传播
- L1 梯度注入专用内核
- Hybrid 格式的高效转置内核
四、实验结果:从理论到真金白银
4.1 训练设置
| 配置 | 设置 |
|---|---|
| 架构 | Transformer++(Qwen/Llama 风格),门控 FFN |
| 激活函数 | ReLU(带 L1 正则化)vs. SiLU/SiGLU 基线 |
| 数据集 | Fineweb |
| 优化器 | AdamW(weight decay=0.1, cosine schedule) |
| 上下文 | 2048 |
| 批次 | 1M tokens |
| 硬件 | 单节点 8×H100 PCIe |
4.2 稀疏化效果:L1 正则化分析(1.5B 模型)
| L1 系数 | 平均非零神经元 | 稀疏度 | 交叉熵损失 | 下游准确率 |
|---|---|---|---|---|
| 0 | 911 / 5632 | ~83.8% | 基准 | 46.4% |
| $2\times10^{-5}$(推荐) | ~30 | ~99.5% | 基准+2% 内 | 46.2%(无损) |
| $10^{-4}$ | <1 | >99.99% | 明显上升 | 下降 |
- 无正则化已有 >20% 稀疏度(自然稀疏性)
- $L_1 \leq 3\times10^{-5}$ 时性能无可见下降
- 即使最高正则化,少数 token 仍激活数百神经元 → 容量重分配机制
4.3 跨规模扩展效果(推荐 $L_1=2\times10^{-5}$)
| 规模 | 推理加速 | 能耗节省 | 训练加速 | 内存降低 |
|---|---|---|---|---|
| 0.5B | +17.0% | -11.8% | -1.5% | -19.2% |
| 1B | +18.1% | -14.6% | +7.1% | -25.5% |
| 1.5B | +18.8% | -15.0% | +11.6% | -28.1% |
| 2B | +20.5% | -17.0% | +21.9% | +22.3%* |
规模扩展趋势:
- 平均非零数从 39(0.5B)降至 24(2B)——更大模型更高效利用稀疏性
- 推理加速:17.0% → 18.1% → 18.8% → 20.5%
- 能耗节省:11.8% → 14.6% → 15.0% → 17.0%
4.4 稀疏模式的深层分析
跨层分布(图6):
- 第 1-2 层最不活跃
- 早期-中层(~layer 8-12)出现峰值,与知识检索和推理的"关键深度"一致
- 层内最大非零数常超均值一个数量级
| 低激活 token | 高激活 token |
|---|---|
常见 URL 片段:doi, nlm, gov, nih | 重要上下文信息 |
可预测缩写:doesn, couldn | 特定动词:loud, enduring |
专业术语:formaldehyde |
---
五、技术洞察与深层启示
5.1 "格式即算法"
这篇论文的核心认知是:稀疏矩阵的存储格式决定了你能用什么算法。ELL 格式无法在现代 GPU 内核中高效构造,TwELL 通过将对齐粒度从"整行"降到"瓦片",实现了内核融合。
这类似于数据库领域从行存储到列存储的范式转移——不是算法变了,是数据的组织方式变了,使得算法能够高效执行。
5.2 训练与推理的权衡
| 阶段 | 挑战 | 解决方案 |
|---|---|---|
| 推理 | 稀疏模式固定,追求极致效率 | TwELL + 融合内核 |
| 训练 | 稀疏模式动态变化,内存瓶颈 | Hybrid 格式 + 动态分区 |
5.3 自然稀疏性 vs 诱导稀疏性
论文发现即使不加 L1 正则化,FFN 层也有 >20% 的自然稀疏性。这暗示了一个更深层的问题:标准 Transformer 架构本身就在浪费计算。
L1 正则化的作用不是"创造"稀疏性,而是"放大"已有的稀疏性——把自然稀疏性从 20% 推到 99.5%,同时不损失性能。
5.4 与 MoE 的对比
| 维度 | MoE | 本论文方法 |
|---|---|---|
| 稀疏性 | 结构化(固定专家路由) | 非结构化(动态神经元激活) |
| 参数量 | 总参数大,激活参数小 | 总参数固定,激活值稀疏 |
| 负载均衡 | 需要辅助损失 | 自然涌现 |
| 硬件友好性 | 需要 all-to-all 通信 | 纯本地计算 |
---
六、局限与边界
论文未明确讨论但可推断的局限:
1. 激活函数限制:目前仅验证 ReLU/SiLU,其他激活(GELU、SwiGLU)的稀疏性特性未探索 2. 模型规模上限:最大验证到 2B,更大模型(70B+)的稀疏模式可能不同 3. 任务类型限制:主要在语言建模和通用下游任务验证,代码、数学推理等高强度任务未报告 4. 硬件绑定:定制内核针对 H100 的 TMA、WGMMA 等特性优化,其他 GPU 架构需要重新适配 5. 2B 模型的内存异常:训练内存反而增加,说明 micro-batch 策略需要精细调优
---
七、结论
这篇论文解决了一个被长期忽视的问题:如何把 LLM 的理论稀疏性变成实际的加速和节能。
核心贡献不是发明了新的稀疏算法,而是设计了一套与现代 GPU 执行流水线兼容的稀疏格式和内核体系:
1. TwELL 格式:通过瓦片级对齐实现内核融合 2. 定制 CUDA 内核:在推理中融合 ReLU + 打包 + 上/下投影 3. Hybrid 训练格式:动态分区应对训练时的高方差稀疏模式
数据是诚实的:
- 推理加速 17-20%
- 能耗降低 15-17%
- 训练加速 7-22%
- 内存降低 19-28%
- 性能无损(准确率差距 <0.5pp)
> "The model doesn't need to be smaller. It needs to be lazier, but in the right way."
---
参考论文: Cetin, E., Peluchetti, S., Castillo, E., et al. (2026). *Sparser, Faster, Lighter Transformer Language Models*. Sakana AI & NVIDIA. arXiv:2603.23198v2. GitHub: https://github.com/SakanaAI/sparser-faster-llms
#论文解读 #稀疏性 #LLM加速 #CUDA #TwELL #Transformer #GPU优化 #SakanaAI #NVIDIA #智柴外脑 #小凯