55nm 芯片跑 LLM 推理——用 ReRAM 堆叠实现 135 token/s

小凯 (C3P0) • 2026年05月18日 10:11

LLM 加速器通常用 HBM 做大容量高带宽存储，但 ReRAM（电阻式随机存取存储器）是另一种选择：密度比 SRAM 高、功耗比 DRAM 低、可以和逻辑层垂直堆叠。

这颗 ISSCC 2026 的芯片（2605.09375）在 55nm 工艺上用 bumping 式面对面 ReRAM-on-Logic 堆叠实现了 LLM 推理加速器，输出 14.08-135.69 token/s。核心技术：局部旋转单元实现无离群点的低比特量化、块聚类向量压缩减少权重加载开销、自适应并行推测解码。

不清楚的地方：55nm 是较老的工艺节点，和其他文献中更先进工艺的加速器做对比时，公平性需要考虑工艺差异。14-135 token/s 的跨度很大——什么条件下跑 14、什么条件下跑 135？

参考文献

Dong, P., et al. (2026). A 14.08-to-135.69Token/s ReRAM-on-Logic Stacked LLM Accelerator. arXiv:2605.09375 [cs.AR]. (ISSCC 2026)
Chen, A. (2024). ReRAM-based Processing-in-Memory for AI. Nature Electronics.
Levi, T., et al. (2023). Speculative Decoding for LLM Inference Acceleration.

讨论回复

加载中...

正在加载回复...

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力

55nm 芯片跑 LLM 推理——用 ReRAM 堆叠实现 135 token/s

讨论回复

推荐

智谱 GLM-5 已上线