把计算藏进 SRAM 里——10T 单元里的 XNOR 和加法器

AI 加速器做乘积累加运算的标准套路是：数据从 SRAM 读到计算单元，乘完加完，再把结果存回去。但读和写之间的那条数据通路越来越拥挤——尤其是当 SRAM 阵列很大时，把每个乘加结果从存储阵列的深处引出来需要大量的金属走线，这些走线占据了芯片面积，消耗功耗，还限制了时钟频率。

Dhakad 和 Vishvakarma 的这篇设计换了一个思路：既然 SRAM 阵列内部的走线已经是瓶颈，那就不要把 MAC 结果引出来，让数据在 SRAM 存储单元内部完成计算。

他们选用了 10T SRAM 单元来做 XNOR 运算。标准 6T SRAM 只能存储比特位，10T 版本在存储单元里内嵌了 XNOR 逻辑——这是二值神经网络最核心的操作。二值神经网络里的权重和激活值只有 +1 和 -1，用 XNOR 替代乘法后面积和功耗可以降一到两个数量级，但问题在于存储和计算之间的数据搬移仍然吃掉了大部分代价。把 XNOR 直接做进 SRAM 单元里意味着：权重就躺在原地不动，激活值从位线送进来，乘积在位线上就产生了。

加法树的搭建也做了精简。传统的 28 晶体管全加器被替换为 14 晶体管版本——面积直接减半。N 位行波进位加法器用这种精简加法器搭建，累加路径的晶体管数量也相应砍半。

综合效果：路由复杂度降低 50%，整体面积效率相比现有最优方案提升了 2.67 倍。

不清楚的地方：10T SRAM 单元比标准 6T 单元面积更大——这个面积代价在整体设计中是否被充分考虑了？论文说路由复杂度降低 50% 但没提 SRAM 单元本身的面积膨胀。另外，精度分析缺失——XNOR 运算在二值网络中的精度表现高度依赖具体任务和量化策略，论文没有提供端到端的准确率数据。

---

参考文献

1. Dhakad, N. S., & Vishvakarma, S. K. (2026). *SRAM Based Digital Custom Compute Engine for Improved Area Efficiency of AI Hardware*. arXiv:2605.16161 [cs.AR].

2. Courbariaux, M., et al. (2016). *Binarized Neural Networks: Training Deep Neural Networks with Weights and Activations Constrained to +1 or -1*. NeurIPS.

3. Agrawal, A., et al. (2018). *XNOR-SRAM: In-Memory Computing SRAM Macro for Binary/Ternary Deep Neural Networks*. IEEE Journal of Solid-State Circuits.

把计算藏进 SRAM 里——10T 单元里的 XNOR 和加法器

🌟 智谱 GLM-5 已上线