「Sparser, Faster, Lighter」深度解读：把LLM的"摸鱼神经元"变成真金白银的加速

论文: Sparser, Faster, Lighter Transformer Language Models arXiv: 2603.23198v2 (2026-05-08) 作者: Edoardo Cetin*, Stefano Peluchetti*, Emilio Castillo*, Akira Naruse, Mana Murakami, Llion Jones 机构: Sakana AI + NVIDIA 代码: https://github.com/SakanaAI/sparser-faster-llms

---

一、核心悖论：稀疏是理论上的胜利，工程上的失败

1.1 一个被忽视的观察

Transformer 的 FFN 层占模型 >2/3 的参数 和 >80% 的总 FLOPs。但使用 ReLU 激活的 FFN 有一个特性：对任意给定 token，只有极少数神经元真正激活。

这就是"懒惰神经元"现象——模型是个"摸鱼达人"，大部分神经元在大部分时间里都在休息。

1.2 稀疏性悖论

理论预期	工程现实
屏蔽休息的神经元 → 计算量大幅下降	GPU 为密集计算高度优化，稀疏操作反而更慢
非结构化稀疏性 → 更灵活的剪枝	异构工作负载、索引物化开销、内存管理开销
更少的 FLOPs → 更快的推理	官方稀疏内核跑不过密集内核

> "Despite performing far less theoretical computation, official kernels implementing sparse operations can often run slower than dense operations on modern GPUs."

过去的工作（SparseGPT、Wanda 等）要么需要大幅偏离现代训练流程，要么只在推理阶段有效，训练阶段无法维持。这篇论文的目标是：在训练和推理中同时实现高效稀疏计算。

---

二、TwELL：从"整行对齐"到"瓦片级对齐"

2.1 ELL 格式的问题

ELLPACK (ELL) 是经典的稀疏矩阵存储格式：

将稀疏矩阵存储为两个填充矩阵 $h_v, h_I$
每行非零值和列索引打包在行首，填充至全局最大非零数 $N_{nz}$

致命问题：现代 GPU 的密集矩阵乘法内核按 2D 瓦片 $T_m \times T_n$ 并行化输出，不同 CTA（线程块）独立计算。无法在计算 ReLU 的同一内核中直接生成 ELL 格式，需要昂贵的 CTA 间同步或额外内核启动。

2.2 TwELL（Tile-wise ELLPACK）

核心洞察：从"整行聚焦"转向"瓦片级聚焦"。

特性	ELL	TwELL
对齐粒度	整行	水平 1D 瓦片（大小 $T = T_n$）
存储结构	$h_v, h_I \in \mathbb{R}^{M \times N_{nz}}$	$h_v, h_I \in \mathbb{R}^{M \times N/C}$，$h_{nz} \in \mathbb{R}^{M \times N_T}$
瓦片内组织	全局行首对齐	每个水平瓦片内局部 ELL 式对齐

存储细节：

$h_v$：非零值矩阵
$h_I$：列索引矩阵
$h_{nz}$：每瓦片非零计数
压缩因子 $C$：选择使 $T/C$ 高于任何瓦片内最大非零数

2.3 内核融合友好性

> "By setting the horizontal tiling dimensions to match, $T = T_n$, the TwELL format can be recovered in the same kernel performing $h_g = \text{ReLU}(xW)$ before storing the outputs to DRAM."

关键优势：

零额外内核启动：ReLU 计算与 TwELL 格式转换在同一个内核完成
零额外全局内存读取：在 mma 内核的 epilogue 阶段直接物化
仅需 warp 级同步：通过局部非零计数器获取存储地址

---

三、定制 CUDA 内核体系

3.1 推理内核 1：TwELL 构造的矩阵乘法

CTA 级逻辑： 1. 所有 CTA 并行处理输出瓦片 $(m_0, n_0)$ 2. 密集矩阵乘：$S \leftarrow x[m_0:m_0+T_m, :] \cdot W_g[:, n_0:n_0+T_n]$ 3. 逐行 ReLU + 打包：遍历 $c \in [0, T_n-1]$，若 $S[r,c]>0$ 则存入 $h_v, h_I$ 4. 存储计数：$h_{nz}[m, n_0/T_n] \leftarrow z$

底层优化：

异步 TMA 读写（H100 特性）
持久化协作设计（CUTLASS 风格流水线）
集群级多播
WGMMA 指令（warp-group 级矩阵乘累加）

3.2 推理内核 2：融合的上投影与下投影

核心计算（公式3）： $$y[m,:] = \sum_{t=0}^{N_T-1} \sum_{c=0}^{h_{nz}[m,t]-1} h_v[m, t \times T_n/C + c] \cdot (x[m,:] \cdot W_u[:,n]) \cdot W_d[n,:]$$

设计选择：

单 warp CTA：最大化并发度和 L2 缓存命中
外层静态展开（瓦片数），内层动态迭代（非零数）
$h_u$ 不存储到 DRAM：内核内隐式计算

3.3 训练内核：Hybrid 格式

训练的特殊挑战： > "We find that these conditions are practically never met during LLM training as sparsity patterns exhibit significant non-uniformity across different tokens, with the maximum number of non-zeros often orders of magnitude larger than the average."

Token 间、层间稀疏度差异极大
内存瓶颈：训练需存储大量中间激活和优化器状态

Hybrid 动态分区：

组件	描述
$h_g^s$	紧凑 ELL 矩阵（稀疏部分）
$h_g^d$	密集备份矩阵（溢出部分）
$h_b$	二进制位置指示向量

双路径执行：

稀疏路径：每 CTA 处理单行，静态展开累加
密集路径：传统 Tensor Core 瓦片内核

反向传播优化：

无需昂贵密集计算：利用存储的稀疏模式直接反向传播
L1 梯度注入专用内核
Hybrid 格式的高效转置内核

---

四、实验结果：从理论到真金白银

4.1 训练设置

配置	设置
架构	Transformer++（Qwen/Llama 风格），门控 FFN
激活函数	ReLU（带 L1 正则化）vs. SiLU/SiGLU 基线
数据集	Fineweb
优化器	AdamW（weight decay=0.1, cosine schedule）
上下文	2048
批次	1M tokens
硬件	单节点 8×H100 PCIe

4.2 稀疏化效果：L1 正则化分析（1.5B 模型）

L1 系数	平均非零神经元	稀疏度	交叉熵损失	下游准确率
0	911 / 5632	~83.8%	基准	46.4%
$2\times10^{-5}$（推荐）	~30	~99.5%	基准+2% 内	46.2%（无损）
$10^{-4}$	<1	>99.99%	明显上升	下降

关键发现：

无正则化已有 >20% 稀疏度（自然稀疏性）
$L_1 \leq 3\times10^{-5}$ 时性能无可见下降
即使最高正则化，少数 token 仍激活数百神经元 → 容量重分配机制

4.3 跨规模扩展效果（推荐 $L_1=2\times10^{-5}$）

规模	推理加速	能耗节省	训练加速	内存降低
0.5B	+17.0%	-11.8%	-1.5%	-19.2%
1B	+18.1%	-14.6%	+7.1%	-25.5%
1.5B	+18.8%	-15.0%	+11.6%	-28.1%
2B	+20.5%	-17.0%	+21.9%	+22.3%*

*2B 模型内存增加因使用更大 micro-batch，但训练加速最高

规模扩展趋势：

平均非零数从 39（0.5B）降至 24（2B）——更大模型更高效利用稀疏性
推理加速：17.0% → 18.1% → 18.8% → 20.5%
能耗节省：11.8% → 14.6% → 15.0% → 17.0%

4.4 稀疏模式的深层分析

跨层分布（图6）：

第 1-2 层最不活跃
早期-中层（~layer 8-12）出现峰值，与知识检索和推理的"关键深度"一致
层内最大非零数常超均值一个数量级

跨 token 分布（图7）：

低激活 token	高激活 token
常见 URL 片段：`doi`, `nlm`, `gov`, `nih`	重要上下文信息
可预测缩写：`doesn`, `couldn`	特定动词：`loud`, `enduring`
	专业术语：`formaldehyde`

位置效应：序列首 token 分配最多非零数，指数衰减——LLM 将计算聚焦于高信息含量 token 和缺乏上下文的位置。

---

五、技术洞察与深层启示

5.1 "格式即算法"

这篇论文的核心认知是：稀疏矩阵的存储格式决定了你能用什么算法。ELL 格式无法在现代 GPU 内核中高效构造，TwELL 通过将对齐粒度从"整行"降到"瓦片"，实现了内核融合。

这类似于数据库领域从行存储到列存储的范式转移——不是算法变了，是数据的组织方式变了，使得算法能够高效执行。

5.2 训练与推理的权衡

阶段	挑战	解决方案
推理	稀疏模式固定，追求极致效率	TwELL + 融合内核
训练	稀疏模式动态变化，内存瓶颈	Hybrid 格式 + 动态分区

关键设计：Hybrid 格式不追求训练时的极致稀疏压缩，而是平衡稀疏路径和密集路径的比例，以整个训练步为粒度优化。

5.3 自然稀疏性 vs 诱导稀疏性

论文发现即使不加 L1 正则化，FFN 层也有 >20% 的自然稀疏性。这暗示了一个更深层的问题：标准 Transformer 架构本身就在浪费计算。

L1 正则化的作用不是"创造"稀疏性，而是"放大"已有的稀疏性——把自然稀疏性从 20% 推到 99.5%，同时不损失性能。

5.4 与 MoE 的对比

维度	MoE	本论文方法
稀疏性	结构化（固定专家路由）	非结构化（动态神经元激活）
参数量	总参数大，激活参数小	总参数固定，激活值稀疏
负载均衡	需要辅助损失	自然涌现
硬件友好性	需要 all-to-all 通信	纯本地计算

论文的方法可以视为"微观 MoE"——不是在不同专家间路由，而是在同一 FFN 内动态选择神经元。

---

六、局限与边界

论文未明确讨论但可推断的局限：

1. 激活函数限制：目前仅验证 ReLU/SiLU，其他激活（GELU、SwiGLU）的稀疏性特性未探索 2. 模型规模上限：最大验证到 2B，更大模型（70B+）的稀疏模式可能不同 3. 任务类型限制：主要在语言建模和通用下游任务验证，代码、数学推理等高强度任务未报告 4. 硬件绑定：定制内核针对 H100 的 TMA、WGMMA 等特性优化，其他 GPU 架构需要重新适配 5. 2B 模型的内存异常：训练内存反而增加，说明 micro-batch 策略需要精细调优

---

七、结论

这篇论文解决了一个被长期忽视的问题：如何把 LLM 的理论稀疏性变成实际的加速和节能。

核心贡献不是发明了新的稀疏算法，而是设计了一套与现代 GPU 执行流水线兼容的稀疏格式和内核体系：

1. TwELL 格式：通过瓦片级对齐实现内核融合 2. 定制 CUDA 内核：在推理中融合 ReLU + 打包 + 上/下投影 3. Hybrid 训练格式：动态分区应对训练时的高方差稀疏模式

数据是诚实的：

推理加速 17-20%
能耗降低 15-17%
训练加速 7-22%
内存降低 19-28%
性能无损（准确率差距 <0.5pp）

更深层的意义：这项工作证明了标准 Transformer 架构存在大量"虚胖"计算。FFN 层的 99.5% 稀疏化不损失性能，说明我们可能在训练和使用比实际需要大得多的模型。这指向一个激进的可能性：未来的模型可能不需要更小，但需要在计算时只激活真正需要的部分。

> "The model doesn't need to be smaller. It needs to be lazier, but in the right way."

---

参考论文: Cetin, E., Peluchetti, S., Castillo, E., et al. (2026). *Sparser, Faster, Lighter Transformer Language Models*. Sakana AI & NVIDIA. arXiv:2603.23198v2. GitHub: https://github.com/SakanaAI/sparser-faster-llms

#论文解读 #稀疏性 #LLM加速 #CUDA #TwELL #Transformer #GPU优化 #SakanaAI #NVIDIA #智柴外脑 #小凯