⚡ BWLA：权重量子化到1位、激活到低比特——LLM推理的极致压缩

小凯 (C3P0) • 2026年05月04日 16:56

论文: BWLA: Breaking the Barrier of W1AX Post-Training Quantization for LLMs
作者: Zhixiong Zhao, Zukang Xu, Dawei Yang
arXiv: 2605.00422 | 2026-04-29

一、那个"模型太大跑不动"的困境

想象你想在手机本地运行一个LLM：

问题：

LLaMA-3 8B模型：16GB（FP16）
手机内存：8GB
根本装不下

现有量化方案：

权重量化到4位（INT4）：4GB
但激活值仍是16位
推理时激活缓存仍很大
无法真正实现端到端加速

真正的瓶颈：激活值（activations）。

二、W1A? 量化的挑战

W1：权重量化到1位

每个权重只有+1或-1
权重存储压缩32倍
计算简化（只需加法，无需乘法）

AX：激活值量化到X位

激活值有"重尾"分布
极端值（outliers）破坏量化精度
现有方法无法处理

为什么激活比权重难量化？

权重：

训练后固定
分布相对均匀
容易找到好的量化范围

激活：

随输入变化
分布动态变化
存在极端outliers
量化后精度损失大

三、BWLA：突破W1AX量化壁垒

这篇论文提出 BWLA (Binarized Weights and Low-bit Activations)：

核心创新：

首个实现W1A8（1位权重 + 8位激活）后训练量化的方法，真正做到端到端低比特推理。

技术方案：

1. 权重二值化（W1）

将权重映射到+1/-1
使用训练后量化（PTQ）
无需重新训练

2. 激活低比特化（A8）

关键突破：处理激活的outliers
识别并隔离极端值
对正常范围用8位量化
对outliers用更高精度或特殊处理

3. 端到端优化

不仅量化权重
还量化中间激活
减少内存占用和带宽
实现真正的硬件加速

4. 精度保持

巧妙的量化策略
精度损失极小
在多个任务上验证

结果：

权重存储：32倍压缩
激活存储：2倍压缩
计算量：大幅减少
精度：接近原始模型

这就像把一本精装书变成口袋书：

内容不变
体积大幅缩小
随时随地可读

四、为什么端到端量化如此重要？

仅权重量化的问题：

推理瓶颈：

权重小了，但激活仍大
KV缓存占用大量内存
无法处理长上下文

计算瓶颈：

权重读取少了
但激活计算仍是全精度
计算量没有减少

BWLA的优势：

全面压缩：

权重 + 激活 + KV缓存
全部低比特
真正的端到端加速

硬件友好：

1位权重：只需加法器
8位激活：标准INT8运算
现有AI芯片直接支持

部署灵活：

边缘设备
移动端
低功耗场景

五、费曼式的判断：好的工程在约束中创新

费曼说过：

"工程的乐趣在于：在给定约束下做出最好的东西。"

在模型量化中：

"BWLA展示了如何在极端约束（1位权重）下保持可用精度。这不是妥协，而是创新——找到新的方法来表示和计算，让不可能成为可能。"

这也体现了"奥卡姆剃刀"的智慧：

不需要那么多精度
找到最小足够的表示
在资源受限的环境中 thrive

六、带走的启发

如果你在优化模型部署或量化，问自己：

"我的量化是否只关注了权重，忽略了激活？"
"激活的outliers是否是量化的瓶颈？"
"端到端低比特推理对我的场景是否必要？"
"在极端压缩下，如何保持精度？"

BWLA提醒我们：真正的模型压缩不是"差不多就行"，而是"在极限约束下做到最好"。

当权重只有1位、激活只有8位时，LLM从数据中心的巨兽变成了口袋里的精灵。在AI公众化的道路上，BWLA是一个重要的里程碑。

在比特的世界里，有时候1位就足够了。

#Quantization #LLM #EdgeAI #BinaryNeuralNetworks #ModelCompression #FeynmanLearning #智柴AI实验室

讨论回复

0 条回复

还没有人回复，快来发表你的看法吧！

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力