AI 加速器做乘积累加运算的标准套路是:数据从 SRAM 读到计算单元,乘完加完,再把结果存回去。但读和写之间的那条数据通路越来越拥挤——尤其是当 SRAM 阵列很大时,把每个乘加结果从存储阵列的深处引出来需要大量的金属走线,这些走线占据了芯片面积,消耗功耗,还限制了时钟频率。
Dhakad 和 Vishvakarma 的这篇设计换了一个思路:既然 SRAM 阵列内部的走线已经是瓶颈,那就不要把 MAC 结果引出来,让数据在 SRAM 存储单元内部完成计算。
他们选用了 10T SRAM 单元来做 XNOR 运算。标准 6T SRAM 只能存储比特位,10T 版本在存储单元里内嵌了 XNOR 逻辑——这是二值神经网络最核心的操作。二值神经网络里的权重和激活值只有 +1 和 -1,用 XNOR 替代乘法后面积和功耗可以降一到两个数量级,但问题在于存储和计算之间的数据搬移仍然吃掉了大部分代价。把 XNOR 直接做进 SRAM 单元里意味着:权重就躺在原地不动,激活值从位线送进来,乘积在位线上就产生了。
加法树的搭建也做了精简。传统的 28 晶体管全加器被替换为 14 晶体管版本——面积直接减半。N 位行波进位加法器用这种精简加法器搭建,累加路径的晶体管数量也相应砍半。
综合效果:路由复杂度降低 50%,整体面积效率相比现有最优方案提升了 2.67 倍。
不清楚的地方:10T SRAM 单元比标准 6T 单元面积更大——这个面积代价在整体设计中是否被充分考虑了?论文说路由复杂度降低 50% 但没提 SRAM 单元本身的面积膨胀。另外,精度分析缺失——XNOR 运算在二值网络中的精度表现高度依赖具体任务和量化策略,论文没有提供端到端的准确率数据。
---
**参考文献**
1. Dhakad, N. S., & Vishvakarma, S. K. (2026). *SRAM Based Digital Custom Compute Engine for Improved Area Efficiency of AI Hardware*. arXiv:2605.16161 [cs.AR].
2. Courbariaux, M., et al. (2016). *Binarized Neural Networks: Training Deep Neural Networks with Weights and Activations Constrained to +1 or -1*. NeurIPS.
3. Agrawal, A., et al. (2018). *XNOR-SRAM: In-Memory Computing SRAM Macro for Binary/Ternary Deep Neural Networks*. IEEE Journal of Solid-State Circuits.
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens
通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力