把 LLM 从浮点运算里解放出来：BiSpikCLM 用二元脉冲省掉 95% 的能耗

项目	内容
标题	BiSpikCLM: A Spiking Language Model integrating Softmax-Free Spiking Attention and Spike-Aware Alignment Distillation
作者	Sihang Guo, Chenlin Zhou, Jiaqi Wang, Kehai Chen, Qingyan Meng, Zhengyu Ma
arXiv	2605.13859 (cs.NE, cs.AI, cs.LG)
日期	2026 年 4 月 14 日
核心贡献	首个全二元脉冲因果语言模型，消除浮点矩阵乘法，只需 ANN 4.16%-5.87% 的计算成本
链接	https://arxiv.org/abs/2605.13859

你知道现在跑一个 LLM 需要多少电吗？很多。多到科技公司在北极圈建数据中心，多到 AI 的碳排放开始变成一个政治议题。

现在有个想法：如果让 LLM 像大脑一样工作——不跑浮点乘法，不计算 softmax，只用 0 和 1 的脉冲信号——能省多少电？

BiSpikCLM 给出了一个具体数字：省 94% 到 96%。

⚡ 1. 从大脑到脉冲神经网络

人脑是一个非常高效的计算机。它只有大约 20 瓦的功率——一个笔记本充电器都不到——却能完成极其复杂的认知任务。

效率的秘密之一：脉冲。 神经元不持续发射信号。它们"静默"，直到积累到足够的输入，然后发射一个尖峰脉冲（spike），然后继续静默。大多数时候，大多数神经元什么都没做。这就是"事件驱动"——只有在有事发生时才有计算。

Spiking Neural Networks（脉冲神经网络/SNN）模仿的就是这个机制。但之前的问题在于，为了保持模型性能，大多数 SNN 版本的 LLM 还是偷偷用了浮点计算——说好了要省电，结果还是忍不住开了空调。

BiSpikCLM 是第一个完全二元、无 MatMul（无矩阵乘法）的脉冲语言模型。它彻底禁用了浮点运算。

🔢 2. 两个核心设计：省掉 softmax，蒸馏训练时间

BiSpikCLM 有两个关键技术贡献：

第一个：Softmax-Free Spiking Attention (SFSA)

正常的 Transformer 注意力需要做 softmax——把一个向量压缩成加起来等于 1 的概率分布。这涉及指数运算和除法，浮点数跑得飞起。

SFSA 说：不要 softmax。不需要。在脉冲域里，注意力天然就是稀疏的——大部分注意力分数是 0（没有脉冲），只有少数是 1（有脉冲）。你不需要 softmax 来归一化，因为脉冲本身就在做"选谁不选谁"的二元决策。

第二个：Spike-Aware Alignment Distillation (SpAD)

训练 SNN 很难——脉冲信号不可微，你不能直接用反向传播。以前的做法要么绕很大一圈做近似，要么训练成本极高。

BiSpikCLM 的做法是蒸馏（distillation）：用一个训练好的 ANN（传统神经网络）做老师，让 SNN 学生学习。蒸馏发生在多个层次——嵌入层、注意力图、中间特征、输出 logits——确保 SNN 学到的不只是最终答案，还有推理过程。更厉害的是，1.3B 参数的模型只需要老师训练数据的 5.6% 就能达到接近的性能。

💸 3. 数字说话：4.16% - 5.87% 的计算成本

对比同规模的 ANN 模型，BiSpikCLM 只需要 4.16% 到 5.87% 的计算成本。这是一个非常有吸引力的数字。

论文说它达到了"competitive performance"——有竞争力的性能。注意这个词。"有竞争力"不是"完全相等"。具体差多少？不同任务上不一样。但考虑到 94% 以上的计算节省，少量性能损失是完全合理的取舍。

想象一下：你手机上的一个模型能做出 GPT-2 级别的事，但耗电少了一个数量级。不是"快一点"——是剩下一整个数量级的能源。

🤔 4. 诚实的问题

好，现在说我不知道的。

第一，"competitive performance" 到底是什么水平？ 论文提到了这个术语来对比 ANN 同类模型，但没有给出详细的比较表格——至少摘要里没有。4.16% 的计算成本做到的"有竞争力"具体在哪些指标上差多少？是在困惑度（perplexity）上接近，还是在具体任务（推理、翻译、问答）上接近？不同类型的任务对模型容量的依赖不一样。我不知道。

第二，1.3B 参数这个规模。 论文提到对 1.3B 的模型只需要 5.6% 的训练 token。但 1.3B 在今天的大模型世界里算是小模型——GPT-4 级别的模型有万亿参数。BiSpikCLM 在更大规模下（10B+）表现如何？脉冲注意力中的稀疏性能否扩展到超大模型？我不知道这是一个天生的优势还是一个有待验证的假设。

第三，硬件生态。 BiSpikCLM 的理论省电优势需要专门的神经形态芯片（如 Intel Loihi、IBM TrueNorth）才能充分发挥。在普通 GPU 上跑二元脉冲运算，省电效果会大打折扣——因为 GPU 根本就不是为这种计算模式设计的。论文没有讨论当前硬件上的实际能效测量值。

🧪 5. 我的判断

我打了一辈子交道的事情中，有一件就是"近似"。物理学家总是在寻找近似——精确解不存在或者太贵，所以我们找足够好的近似。

BiSpikCLM 的核心主张是：二元脉冲深度学习是浮点深度学习的足够好的近似。 不是更好，但便宜 95%。

这个方向我总体上相信有未来。原因很简单：无论模型怎么发展，能源效率最终会是瓶颈。你不能无限地堆算力——物理定律不允许（热力学第二定律是一个顽固的家伙）。所以要么模型变小，要么计算变高效。脉冲神经网络是"计算变高效"这条路线上最有希望的候选之一。

至于 BiSpikCLM 具体能不能成为"大语言模型的脉冲时刻"——我不知道。但我可以说：如果有一天你的手机能跑一个和 GPT-4 一样聪明的模型，大概率不是因为芯片变快了多少倍，而是因为模型学会了像大脑一样只在需要的时候才消耗能量。

而 BiSpikCLM 是通向那个方向的一步。很小的一步，但方向对。

📚 参考文献

1. Guo, S., et al. (2026). BiSpikCLM: A Spiking Language Model integrating Softmax-Free Spiking Attention and Spike-Aware Alignment Distillation. arXiv:2605.13859. 2. Maass, W. (1997). Networks of Spiking Neurons: The Third Generation of Neural Network Models. Neural Networks. 3. Merolla, P., et al. (2014). A million spiking-neuron integrated circuit with a scalable communication network and interface. Science. 4. Davies, M., et al. (2018). Loihi: A Neuromorphic Manycore Processor with On-Chip Learning. IEEE Micro.

#BiSpikCLM #SpikingNeuralNet #BinaryLLM #EnergyEfficient #FeynmanLearning #智柴系统实验室🎙️

把 LLM 从浮点运算里解放出来：BiSpikCLM 用二元脉冲省掉 95% 的能耗

🌟 智谱 GLM-5 已上线