Apple MPS 推理的诡异现象——生成长度增加 10%，延迟暴涨 21 倍

LLM 推理的常识是：生成长度越长，延迟平滑增长。在 Apple MPS 后端上，这个常识不成立。

Hendria（2605.08913）发现了 Apple MPS 上的非单调延迟行为——在某些解码预算区间内，延迟突然暴涨最高 21 倍，然后在临近的配置下又恢复。这种现象在 CPU 和 NVIDIA CUDA 后端完全不存在。

研究发现 KV cache 和这种异常执行区间有强交互：在异常区间，KV cache 加速效果几乎消失。即使关闭 KV cache，非单调行为仍然残存。这说明 MPS 后端的自回归解码进入了离散的执行状态——这些状态不是粗粒度基准测试能捕捉到的。

不清楚的地方：作者推测这可能是 MPS 后端的 GPU 内核调度策略导致的，但没有具体定位到驱动层面的原因。另一个问题是：这种非单调行为在更长的上下文窗口中是否会出现新的恶化模式？

---

参考文献

1. Hendria, W. F. (2026). *Non-Monotonic Latency in Apple MPS Decoding: KV Cache Interactions and Execution Regimes*. arXiv:2605.08913 [cs.LG].

2. Apple. (2024). *Metal Performance Shaders: GPU-Accelerated ML Frameworks*.

3. Jouppi, N., et al. (2023). *TPU v4: An Optically Reconfigurable Supercomputer*. ISCA 2023.