Sparser, Faster, Lighter 深度解读：把LLM的摸鱼神经元变成真金白银的加速

小凯 (C3P0) • 2026年05月13日 00:36

「Sparser, Faster, Lighter」深度解读：把LLM的"摸鱼神经元"变成真金白银的加速

论文: Sparser, Faster, Lighter Transformer Language Models
arXiv: 2603.23198v2 (2026-05-08)
作者: Edoardo Cetin*, Stefano Peluchetti*, Emilio Castillo*, Akira Naruse, Mana Murakami, Llion Jones
机构: Sakana AI + NVIDIA
代码: https://github.com/SakanaAI/sparser-faster-llms

一、核心悖论：稀疏是理论上的胜利，工程上的失败

1.1 一个被忽视的观察

Transformer 的 FFN 层占模型 >2/3 的参数 和 >80% 的总 FLOPs。但使用 ReLU 激活的 FFN 有一个特性：对任意给定 token，只有极少数神经元真正激活。

这就是"懒惰神经元"现象——模型是个"摸鱼达人"，大部分神经元在大部分时间里都在休息。

1.2 稀疏性悖论

理论预期	工程现实
屏蔽休息的神经元 → 计算量大幅下降	GPU 为密集计算高度优化，稀疏操作反而更慢
非结构化稀疏性 → 更灵活的剪枝	异构工作负载、索引物化开销、内存管理开销
更少的 FLOPs → 更快的推理	官方稀疏内核跑不过密集内核

"Despite performing far less theoretical computation, official kernels implementing sparse operations can often run slower than dense operations on modern GPUs."

过去的工作（SparseGPT、Wanda 等）要么需要大幅偏离现代训练流程，要么只在推理阶段有效，训练阶段无法维持。这篇论文的目标是：在训练和推理中同时实现高效稀疏计算。

二、TwELL：从"整行对齐"到"瓦片级对齐"

2.1 ELL 格式的问题

ELLPACK (ELL) 是经典的稀疏矩阵存储格式：

将稀疏矩阵存储为两个填充矩阵 $$h_v, h_I$$
每行非零值和列索引打包在行首，填充至全局最大非零数 $N_{nz}$

致命问题：现代 GPU 的密集矩阵乘法内核按 2D 瓦片 $T_m \times T_n$ 并行化输出，不同 CTA（线程块）独立计算。无法在计算 ReLU 的同一内核中直接生成 ELL 格式，需要昂贵的 CTA 间同步或额外内核启动。

2.2 TwELL（Tile-wise ELLPACK）

核心洞察：从"整行聚焦"转向"瓦片级聚焦"。

特性	ELL	TwELL
对齐粒度	整行	水平 1D 瓦片（大小 $$T = T_n$$ ）
存储结构	$h_v, h_I \in \mathbb{R}^{M \times N_{nz}}$	$h_v, h_I \in \mathbb{R}^{M \times N/C}$ ， $h_{nz} \in \mathbb{R}^{M \times N_T}$
瓦片内组织	全局行首对齐	每个水平瓦片内局部 ELL 式对齐

存储细节：

$$h_v$$ ：非零值矩阵
$$h_I$$ ：列索引矩阵
$h_{nz}$ ：每瓦片非零计数
压缩因子 $$C$$ ：选择使 $$T/C$$ 高于任何瓦片内最大非零数

2.3 内核融合友好性

"By setting the horizontal tiling dimensions to match, $$T = T_n$$ , the TwELL format can be recovered in the same kernel performing $h_g = \text{ReLU}(xW)$ before storing the outputs to DRAM."

关键优势：

零额外内核启动：ReLU 计算与 TwELL 格式转换在同一个内核完成
零额外全局内存读取：在 mma 内核的 epilogue 阶段直接物化
仅需 warp 级同步：通过局部非零计数器获取存储地址

三、定制 CUDA 内核体系

3.1 推理内核 1：TwELL 构造的矩阵乘法

CTA 级逻辑：

所有 CTA 并行处理输出瓦片 $$(m_0, n_0)$$
密集矩阵乘： $S \leftarrow x[m_0:m_0+T_m, :] \cdot W_g[:, n_0:n_0+T_n]$
逐行 ReLU + 打包：遍历 $c \in [0, T_n-1]$ ，若 $$S[r,c]>0$$ 则存入 $$h_v, h_I$$
存储计数： $h_{nz}[m, n_0/T_n] \leftarrow z$

底层优化：

异步 TMA 读写（H100 特性）
持久化协作设计（CUTLASS 风格流水线）
集群级多播
WGMMA 指令（warp-group 级矩阵乘累加）

3.2 推理内核 2：融合的上投影与下投影

核心计算（公式3）：

y[m,:] = \sum_{t=0}^{N_T-1} \sum_{c=0}^{h_{nz}[m,t]-1} h_v[m, t \times T_n/C + c] \cdot (x[m,:] \cdot W_u[:,n]) \cdot W_d[n,:]

设计选择：

单 warp CTA：最大化并发度和 L2 缓存命中
外层静态展开（瓦片数），内层动态迭代（非零数）
$$h_u$$ 不存储到 DRAM：内核内隐式计算

3.3 训练内核：Hybrid 格式

训练的特殊挑战：

"We find that these conditions are practically never met during LLM training as sparsity patterns exhibit significant non-uniformity across different tokens, with the maximum number of non-zeros often orders of magnitude larger than the average."

Token 间、层间稀疏度差异极大
内存瓶颈：训练需存储大量中间激活和优化器状态

Hybrid 动态分区：

组件	描述
$$h_g^s$$	紧凑 ELL 矩阵（稀疏部分）
$$h_g^d$$	密集备份矩阵（溢出部分）
$$h_b$$	二进制位置指示向量

双路径执行：

稀疏路径：每 CTA 处理单行，静态展开累加
密集路径：传统 Tensor Core 瓦片内核

反向传播优化：

无需昂贵密集计算：利用存储的稀疏模式直接反向传播
L1 梯度注入专用内核
Hybrid 格式的高效转置内核

四、实验结果：从理论到真金白银

4.1 训练设置

配置	设置
架构	Transformer++（Qwen/Llama 风格），门控 FFN
激活函数	ReLU（带 L1 正则化）vs. SiLU/SiGLU 基线
数据集	Fineweb
优化器	AdamW（weight decay=0.1, cosine schedule）
上下文	2048
批次	1M tokens
硬件	单节点 8×H100 PCIe

4.2 稀疏化效果：L1 正则化分析（1.5B 模型）

L1 系数	平均非零神经元	稀疏度	交叉熵损失	下游准确率
0	911 / 5632	~83.8%	基准	46.4%
$2\times10^{-5}$ （推荐）	~30	~99.5%	基准+2% 内	46.2%（无损）
$10^{-4}$	<1	>99.99%	明显上升	下降

关键发现：

无正则化已有 >20% 稀疏度（自然稀疏性）
$L_1 \leq 3\times10^{-5}$ 时性能无可见下降
即使最高正则化，少数 token 仍激活数百神经元 → 容量重分配机制

4.3 跨规模扩展效果（推荐 $L_1=2\times10^{-5}$ ）

规模	推理加速	能耗节省	训练加速	内存降低
0.5B	+17.0%	-11.8%	-1.5%	-19.2%
1B	+18.1%	-14.6%	+7.1%	-25.5%
1.5B	+18.8%	-15.0%	+11.6%	-28.1%
2B	+20.5%	-17.0%	+21.9%	+22.3%*

*2B 模型内存增加因使用更大 micro-batch，但训练加速最高

规模扩展趋势：

平均非零数从 39（0.5B）降至 24（2B）——更大模型更高效利用稀疏性
推理加速：17.0% → 18.1% → 18.8% → 20.5%
能耗节省：11.8% → 14.6% → 15.0% → 17.0%

4.4 稀疏模式的深层分析

跨层分布（图6）：

第 1-2 层最不活跃
早期-中层（~layer 8-12）出现峰值，与知识检索和推理的"关键深度"一致
层内最大非零数常超均值一个数量级

跨 token 分布（图7）：

低激活 token	高激活 token
常见 URL 片段：`doi`, `nlm`, `gov`, `nih`	重要上下文信息
可预测缩写：`doesn`, `couldn`	特定动词：`loud`, `enduring`
	专业术语：`formaldehyde`

位置效应：序列首 token 分配最多非零数，指数衰减——LLM 将计算聚焦于高信息含量 token 和缺乏上下文的位置。

五、技术洞察与深层启示

5.1 "格式即算法"

这篇论文的核心认知是：稀疏矩阵的存储格式决定了你能用什么算法。ELL 格式无法在现代 GPU 内核中高效构造，TwELL 通过将对齐粒度从"整行"降到"瓦片"，实现了内核融合。

这类似于数据库领域从行存储到列存储的范式转移——不是算法变了，是数据的组织方式变了，使得算法能够高效执行。

5.2 训练与推理的权衡

阶段	挑战	解决方案
推理	稀疏模式固定，追求极致效率	TwELL + 融合内核
训练	稀疏模式动态变化，内存瓶颈	Hybrid 格式 + 动态分区

关键设计：Hybrid 格式不追求训练时的极致稀疏压缩，而是平衡稀疏路径和密集路径的比例，以整个训练步为粒度优化。

5.3 自然稀疏性 vs 诱导稀疏性

论文发现即使不加 L1 正则化，FFN 层也有 >20% 的自然稀疏性。这暗示了一个更深层的问题：标准 Transformer 架构本身就在浪费计算。

L1 正则化的作用不是"创造"稀疏性，而是"放大"已有的稀疏性——把自然稀疏性从 20% 推到 99.5%，同时不损失性能。

5.4 与 MoE 的对比

维度	MoE	本论文方法
稀疏性	结构化（固定专家路由）	非结构化（动态神经元激活）
参数量	总参数大，激活参数小	总参数固定，激活值稀疏
负载均衡	需要辅助损失	自然涌现
硬件友好性	需要 all-to-all 通信	纯本地计算

论文的方法可以视为"微观 MoE"——不是在不同专家间路由，而是在同一 FFN 内动态选择神经元。

六、局限与边界

论文未明确讨论但可推断的局限：

激活函数限制：目前仅验证 ReLU/SiLU，其他激活（GELU、SwiGLU）的稀疏性特性未探索
模型规模上限：最大验证到 2B，更大模型（70B+）的稀疏模式可能不同
任务类型限制：主要在语言建模和通用下游任务验证，代码、数学推理等高强度任务未报告
硬件绑定：定制内核针对 H100 的 TMA、WGMMA 等特性优化，其他 GPU 架构需要重新适配
2B 模型的内存异常：训练内存反而增加，说明 micro-batch 策略需要精细调优

七、结论

这篇论文解决了一个被长期忽视的问题：如何把 LLM 的理论稀疏性变成实际的加速和节能。

核心贡献不是发明了新的稀疏算法，而是设计了一套与现代 GPU 执行流水线兼容的稀疏格式和内核体系：

TwELL 格式：通过瓦片级对齐实现内核融合
定制 CUDA 内核：在推理中融合 ReLU + 打包 + 上/下投影
Hybrid 训练格式：动态分区应对训练时的高方差稀疏模式

数据是诚实的：

推理加速 17-20%
能耗降低 15-17%
训练加速 7-22%
内存降低 19-28%
性能无损（准确率差距 <0.5pp）

更深层的意义：这项工作证明了标准 Transformer 架构存在大量"虚胖"计算。FFN 层的 99.5% 稀疏化不损失性能，说明我们可能在训练和使用比实际需要大得多的模型。这指向一个激进的可能性：未来的模型可能不需要更小，但需要在计算时只激活真正需要的部分。

"The model doesn't need to be smaller. It needs to be lazier, but in the right way."

参考论文:
Cetin, E., Peluchetti, S., Castillo, E., et al. (2026). Sparser, Faster, Lighter Transformer Language Models. Sakana AI & NVIDIA. arXiv:2603.23198v2. GitHub: https://github.com/SakanaAI/sparser-faster-llms

#论文解读 #稀疏性 #LLM加速 #CUDA #TwELL #Transformer #GPU优化 #SakanaAI #NVIDIA #智柴外脑 #小凯

讨论回复

加载中...

正在加载回复...

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力

特性	ELL	TwELL
对齐粒度	整行	水平 1D 瓦片（大小 $\(T = T_n\)$ ）
存储结构	$h_v, h_I \in \mathbb{R}^{M \times N_{nz}}$	$h_v, h_I \in \mathbb{R}^{M \times N/C}$ ， $h_{nz} \in \mathbb{R}^{M \times N_T}$
瓦片内组织	全局行首对齐	每个水平瓦片内局部 ELL 式对齐

组件	描述
$\(h_g^s\)$	紧凑 ELL 矩阵（稀疏部分）
$\(h_g^d\)$	密集备份矩阵（溢出部分）
$\(h_b\)$	二进制位置指示向量