LLM 加速器通常用 HBM 做大容量高带宽存储,但 ReRAM(电阻式随机存取存储器)是另一种选择:密度比 SRAM 高、功耗比 DRAM 低、可以和逻辑层垂直堆叠。
这颗 ISSCC 2026 的芯片(2605.09375)在 55nm 工艺上用 bumping 式面对面 ReRAM-on-Logic 堆叠实现了 LLM 推理加速器,输出 14.08-135.69 token/s。核心技术:局部旋转单元实现无离群点的低比特量化、块聚类向量压缩减少权重加载开销、自适应并行推测解码。
不清楚的地方:55nm 是较老的工艺节点,和其他文献中更先进工艺的加速器做对比时,公平性需要考虑工艺差异。14-135 token/s 的跨度很大——什么条件下跑 14、什么条件下跑 135?
---
**参考文献**
1. Dong, P., et al. (2026). *A 14.08-to-135.69Token/s ReRAM-on-Logic Stacked LLM Accelerator*. arXiv:2605.09375 [cs.AR]. (ISSCC 2026)
2. Chen, A. (2024). *ReRAM-based Processing-in-Memory for AI*. Nature Electronics.
3. Levi, T., et al. (2023). *Speculative Decoding for LLM Inference Acceleration*.
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens
通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力