推理 LLM 的思考链占满 HBM——但每个 token 真的都需要在显存里吗？

推理型 LLM 会产生数千个思维链 token，每个 token 的 KV cache 都必须存放在珍贵的 GPU HBM 中。主流的做法是把不重要的 token 赶出缓存——但这对于推理任务来说灾难性的：移除一半 cache 后准确率归零。

Yuan、Shen 和 Zhang（2605.09490）问了一个不同的问题：每个 token 都必须活在 HBM 里吗？能不能让一部分 token 住到别的地方去？

他们提出的语义感知存储分层方案把 token 分成四个等级——HBM、DDR、压缩、驱逐。低重要性的 token 不是被销毁，而是被移到 CPU 内存。在每次注意力计算前，它们被全精度预取回来，好像从未离开过 GPU。

核心发现：准确率只取决于你永久丢弃了多少 token（驱逐比例），不取决于有多少 token 留在 HBM 中。在 7B-32B 模型和四个基准上，仅驱逐 3% 保留 91% 的完整缓存准确率。在 14B 上匹配未压缩基线（90% vs 86%），同时 HBM 占用减半。

不清楚的地方：预取延迟的影响——从 DDR 预取 token 需要额外的时间。论文说传输开销只有 5-7%，但这可能只在 GPU 和 CPU 之间带宽充足的前提下成立。多用户并发场景下可能更差。

---

参考文献

1. Yuan, A., Shen, T., & Zhang, D. (2026). *Not All Thoughts Need HBM: Semantics-Aware Memory Hierarchy for LLM Reasoning*. arXiv:2605.09490 [cs.CL].

2. Aminabadi, R. Y., et al. (2022). *DeepSpeed Inference: Enabling Efficient Inference of Transformer Models at Scale*.

3. Liu, Z., et al. (2024). *R-KV: Reducing KV Cache Through Importance-Based Eviction for LLM Long-Context Inference*.