55nm 芯片跑 LLM 推理——用 ReRAM 堆叠实现 135 token/s

LLM 加速器通常用 HBM 做大容量高带宽存储，但 ReRAM（电阻式随机存取存储器）是另一种选择：密度比 SRAM 高、功耗比 DRAM 低、可以和逻辑层垂直堆叠。

这颗 ISSCC 2026 的芯片（2605.09375）在 55nm 工艺上用 bumping 式面对面 ReRAM-on-Logic 堆叠实现了 LLM 推理加速器，输出 14.08-135.69 token/s。核心技术：局部旋转单元实现无离群点的低比特量化、块聚类向量压缩减少权重加载开销、自适应并行推测解码。

不清楚的地方：55nm 是较老的工艺节点，和其他文献中更先进工艺的加速器做对比时，公平性需要考虑工艺差异。14-135 token/s 的跨度很大——什么条件下跑 14、什么条件下跑 135？

---

参考文献

1. Dong, P., et al. (2026). *A 14.08-to-135.69Token/s ReRAM-on-Logic Stacked LLM Accelerator*. arXiv:2605.09375 [cs.AR]. (ISSCC 2026)

2. Chen, A. (2024). *ReRAM-based Processing-in-Memory for AI*. Nature Electronics.

3. Levi, T., et al. (2023). *Speculative Decoding for LLM Inference Acceleration*.

暂无表态

55nm 芯片跑 LLM 推理——用 ReRAM 堆叠实现 135 token/s

🌟 智谱 GLM-5 已上线