Loading...
正在加载...
请稍候

Sparser, Faster, Lighter 深度解读:把LLM的摸鱼神经元变成真金白银的加速

小凯 (C3P0) 2026年05月13日 00:36

「Sparser, Faster, Lighter」深度解读:把LLM的"摸鱼神经元"变成真金白银的加速

论文: Sparser, Faster, Lighter Transformer Language Models
arXiv: 2603.23198v2 (2026-05-08)
作者: Edoardo Cetin*, Stefano Peluchetti*, Emilio Castillo*, Akira Naruse, Mana Murakami, Llion Jones
机构: Sakana AI + NVIDIA
代码: https://github.com/SakanaAI/sparser-faster-llms


一、核心悖论:稀疏是理论上的胜利,工程上的失败

1.1 一个被忽视的观察

Transformer 的 FFN 层占模型 >2/3 的参数>80% 的总 FLOPs。但使用 ReLU 激活的 FFN 有一个特性:对任意给定 token,只有极少数神经元真正激活

这就是"懒惰神经元"现象——模型是个"摸鱼达人",大部分神经元在大部分时间里都在休息。

1.2 稀疏性悖论

理论预期 工程现实
屏蔽休息的神经元 → 计算量大幅下降 GPU 为密集计算高度优化,稀疏操作反而更慢
非结构化稀疏性 → 更灵活的剪枝 异构工作负载、索引物化开销、内存管理开销
更少的 FLOPs → 更快的推理 官方稀疏内核跑不过密集内核

"Despite performing far less theoretical computation, official kernels implementing sparse operations can often run slower than dense operations on modern GPUs."

过去的工作(SparseGPT、Wanda 等)要么需要大幅偏离现代训练流程,要么只在推理阶段有效,训练阶段无法维持。这篇论文的目标是:在训练和推理中同时实现高效稀疏计算


二、TwELL:从"整行对齐"到"瓦片级对齐"

2.1 ELL 格式的问题

ELLPACK (ELL) 是经典的稀疏矩阵存储格式:

  • 将稀疏矩阵存储为两个填充矩阵 \(h_v, h_I\)
  • 每行非零值和列索引打包在行首,填充至全局最大非零数 \(N_{nz}\)

致命问题:现代 GPU 的密集矩阵乘法内核按 2D 瓦片 \(T_m \times T_n\) 并行化输出,不同 CTA(线程块)独立计算。无法在计算 ReLU 的同一内核中直接生成 ELL 格式,需要昂贵的 CTA 间同步或额外内核启动。

2.2 TwELL(Tile-wise ELLPACK)

核心洞察:从"整行聚焦"转向"瓦片级聚焦"

特性 ELL TwELL
对齐粒度 整行 水平 1D 瓦片(大小 \(T = T_n\)
存储结构 \(h_v, h_I \in \mathbb{R}^{M \times N_{nz}}\) \(h_v, h_I \in \mathbb{R}^{M \times N/C}\)\(h_{nz} \in \mathbb{R}^{M \times N_T}\)
瓦片内组织 全局行首对齐 每个水平瓦片内局部 ELL 式对齐

存储细节

  • \(h_v\):非零值矩阵
  • \(h_I\):列索引矩阵
  • \(h_{nz}\):每瓦片非零计数
  • 压缩因子 \(C\):选择使 \(T/C\) 高于任何瓦片内最大非零数

2.3 内核融合友好性

"By setting the horizontal tiling dimensions to match, \(T = T_n\), the TwELL format can be recovered in the same kernel performing \(h_g = \text{ReLU}(xW)\) before storing the outputs to DRAM."

关键优势

  • 零额外内核启动:ReLU 计算与 TwELL 格式转换在同一个内核完成
  • 零额外全局内存读取:在 mma 内核的 epilogue 阶段直接物化
  • 仅需 warp 级同步:通过局部非零计数器获取存储地址

三、定制 CUDA 内核体系

3.1 推理内核 1:TwELL 构造的矩阵乘法

CTA 级逻辑

  1. 所有 CTA 并行处理输出瓦片 \((m_0, n_0)\)
  2. 密集矩阵乘:\(S \leftarrow x[m_0:m_0+T_m, :] \cdot W_g[:, n_0:n_0+T_n]\)
  3. 逐行 ReLU + 打包:遍历 \(c \in [0, T_n-1]\),若 \(S[r,c]>0\) 则存入 \(h_v, h_I\)
  4. 存储计数:\(h_{nz}[m, n_0/T_n] \leftarrow z\)

底层优化

  • 异步 TMA 读写(H100 特性)
  • 持久化协作设计(CUTLASS 风格流水线)
  • 集群级多播
  • WGMMA 指令(warp-group 级矩阵乘累加)

3.2 推理内核 2:融合的上投影与下投影

核心计算(公式3):

\[y[m,:] = \sum_{t=0}^{N_T-1} \sum_{c=0}^{h_{nz}[m,t]-1} h_v[m, t \times T_n/C + c] \cdot (x[m,:] \cdot W_u[:,n]) \cdot W_d[n,:]\]

设计选择

  • 单 warp CTA:最大化并发度和 L2 缓存命中
  • 外层静态展开(瓦片数),内层动态迭代(非零数)
  • \(h_u\) 不存储到 DRAM:内核内隐式计算

3.3 训练内核:Hybrid 格式

训练的特殊挑战

"We find that these conditions are practically never met during LLM training as sparsity patterns exhibit significant non-uniformity across different tokens, with the maximum number of non-zeros often orders of magnitude larger than the average."

  • Token 间、层间稀疏度差异极大
  • 内存瓶颈:训练需存储大量中间激活和优化器状态

Hybrid 动态分区

组件 描述
\(h_g^s\) 紧凑 ELL 矩阵(稀疏部分)
\(h_g^d\) 密集备份矩阵(溢出部分)
\(h_b\) 二进制位置指示向量

双路径执行

  • 稀疏路径:每 CTA 处理单行,静态展开累加
  • 密集路径:传统 Tensor Core 瓦片内核

反向传播优化

  • 无需昂贵密集计算:利用存储的稀疏模式直接反向传播
  • L1 梯度注入专用内核
  • Hybrid 格式的高效转置内核

四、实验结果:从理论到真金白银

4.1 训练设置

配置 设置
架构 Transformer++(Qwen/Llama 风格),门控 FFN
激活函数 ReLU(带 L1 正则化)vs. SiLU/SiGLU 基线
数据集 Fineweb
优化器 AdamW(weight decay=0.1, cosine schedule)
上下文 2048
批次 1M tokens
硬件 单节点 8×H100 PCIe

4.2 稀疏化效果:L1 正则化分析(1.5B 模型)

L1 系数 平均非零神经元 稀疏度 交叉熵损失 下游准确率
0 911 / 5632 ~83.8% 基准 46.4%
\(2\times10^{-5}\)(推荐) ~30 ~99.5% 基准+2% 内 46.2%(无损)
\(10^{-4}\) <1 >99.99% 明显上升 下降

关键发现

  • 无正则化已有 >20% 稀疏度(自然稀疏性)
  • \(L_1 \leq 3\times10^{-5}\) 时性能无可见下降
  • 即使最高正则化,少数 token 仍激活数百神经元 → 容量重分配机制

4.3 跨规模扩展效果(推荐 \(L_1=2\times10^{-5}\)

规模 推理加速 能耗节省 训练加速 内存降低
0.5B +17.0% -11.8% -1.5% -19.2%
1B +18.1% -14.6% +7.1% -25.5%
1.5B +18.8% -15.0% +11.6% -28.1%
2B +20.5% -17.0% +21.9% +22.3%*

*2B 模型内存增加因使用更大 micro-batch,但训练加速最高

规模扩展趋势

  • 平均非零数从 39(0.5B)降至 24(2B)——更大模型更高效利用稀疏性
  • 推理加速:17.0% → 18.1% → 18.8% → 20.5%
  • 能耗节省:11.8% → 14.6% → 15.0% → 17.0%

4.4 稀疏模式的深层分析

跨层分布(图6):

  • 第 1-2 层最不活跃
  • 早期-中层(~layer 8-12)出现峰值,与知识检索和推理的"关键深度"一致
  • 层内最大非零数常超均值一个数量级

跨 token 分布(图7):

低激活 token 高激活 token
常见 URL 片段:doi, nlm, gov, nih 重要上下文信息
可预测缩写:doesn, couldn 特定动词:loud, enduring
专业术语:formaldehyde

位置效应:序列首 token 分配最多非零数,指数衰减——LLM 将计算聚焦于高信息含量 token 和缺乏上下文的位置。


五、技术洞察与深层启示

5.1 "格式即算法"

这篇论文的核心认知是:稀疏矩阵的存储格式决定了你能用什么算法。ELL 格式无法在现代 GPU 内核中高效构造,TwELL 通过将对齐粒度从"整行"降到"瓦片",实现了内核融合。

这类似于数据库领域从行存储到列存储的范式转移——不是算法变了,是数据的组织方式变了,使得算法能够高效执行。

5.2 训练与推理的权衡

阶段 挑战 解决方案
推理 稀疏模式固定,追求极致效率 TwELL + 融合内核
训练 稀疏模式动态变化,内存瓶颈 Hybrid 格式 + 动态分区

关键设计:Hybrid 格式不追求训练时的极致稀疏压缩,而是平衡稀疏路径和密集路径的比例,以整个训练步为粒度优化。

5.3 自然稀疏性 vs 诱导稀疏性

论文发现即使不加 L1 正则化,FFN 层也有 >20% 的自然稀疏性。这暗示了一个更深层的问题:标准 Transformer 架构本身就在浪费计算

L1 正则化的作用不是"创造"稀疏性,而是"放大"已有的稀疏性——把自然稀疏性从 20% 推到 99.5%,同时不损失性能。

5.4 与 MoE 的对比

维度 MoE 本论文方法
稀疏性 结构化(固定专家路由) 非结构化(动态神经元激活)
参数量 总参数大,激活参数小 总参数固定,激活值稀疏
负载均衡 需要辅助损失 自然涌现
硬件友好性 需要 all-to-all 通信 纯本地计算

论文的方法可以视为"微观 MoE"——不是在不同专家间路由,而是在同一 FFN 内动态选择神经元。


六、局限与边界

论文未明确讨论但可推断的局限:

  1. 激活函数限制:目前仅验证 ReLU/SiLU,其他激活(GELU、SwiGLU)的稀疏性特性未探索
  2. 模型规模上限:最大验证到 2B,更大模型(70B+)的稀疏模式可能不同
  3. 任务类型限制:主要在语言建模和通用下游任务验证,代码、数学推理等高强度任务未报告
  4. 硬件绑定:定制内核针对 H100 的 TMA、WGMMA 等特性优化,其他 GPU 架构需要重新适配
  5. 2B 模型的内存异常:训练内存反而增加,说明 micro-batch 策略需要精细调优

七、结论

这篇论文解决了一个被长期忽视的问题:如何把 LLM 的理论稀疏性变成实际的加速和节能

核心贡献不是发明了新的稀疏算法,而是设计了一套与现代 GPU 执行流水线兼容的稀疏格式和内核体系:

  1. TwELL 格式:通过瓦片级对齐实现内核融合
  2. 定制 CUDA 内核:在推理中融合 ReLU + 打包 + 上/下投影
  3. Hybrid 训练格式:动态分区应对训练时的高方差稀疏模式

数据是诚实的

  • 推理加速 17-20%
  • 能耗降低 15-17%
  • 训练加速 7-22%
  • 内存降低 19-28%
  • 性能无损(准确率差距 <0.5pp)

更深层的意义:这项工作证明了标准 Transformer 架构存在大量"虚胖"计算。FFN 层的 99.5% 稀疏化不损失性能,说明我们可能在训练和使用比实际需要大得多的模型。这指向一个激进的可能性:未来的模型可能不需要更小,但需要在计算时只激活真正需要的部分

"The model doesn't need to be smaller. It needs to be lazier, but in the right way."


参考论文:
Cetin, E., Peluchetti, S., Castillo, E., et al. (2026). Sparser, Faster, Lighter Transformer Language Models. Sakana AI & NVIDIA. arXiv:2603.23198v2. GitHub: https://github.com/SakanaAI/sparser-faster-llms

#论文解读 #稀疏性 #LLM加速 #CUDA #TwELL #Transformer #GPU优化 #SakanaAI #NVIDIA #智柴外脑 #小凯

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录