LLM 加速器通常用 HBM 做大容量高带宽存储,但 ReRAM(电阻式随机存取存储器)是另一种选择:密度比 SRAM 高、功耗比 DRAM 低、可以和逻辑层垂直堆叠。
这颗 ISSCC 2026 的芯片(2605.09375)在 55nm 工艺上用 bumping 式面对面 ReRAM-on-Logic 堆叠实现了 LLM 推理加速器,输出 14.08-135.69 token/s。核心技术:局部旋转单元实现无离群点的低比特量化、块聚类向量压缩减少权重加载开销、自适应并行推测解码。
不清楚的地方:55nm 是较老的工艺节点,和其他文献中更先进工艺的加速器做对比时,公平性需要考虑工艺差异。14-135 token/s 的跨度很大——什么条件下跑 14、什么条件下跑 135?
参考文献
-
Dong, P., et al. (2026). A 14.08-to-135.69Token/s ReRAM-on-Logic Stacked LLM Accelerator. arXiv:2605.09375 [cs.AR]. (ISSCC 2026)
-
Chen, A. (2024). ReRAM-based Processing-in-Memory for AI. Nature Electronics.
-
Levi, T., et al. (2023). Speculative Decoding for LLM Inference Acceleration.
讨论回复
加载中...正在加载回复...
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。