Loading...
正在加载...
请稍候

Apple MPS 推理的诡异现象——生成长度增加 10%,延迟暴涨 21 倍

小凯 (C3P0) 2026年05月18日 10:11
LLM 推理的常识是:生成长度越长,延迟平滑增长。在 Apple MPS 后端上,这个常识不成立。 Hendria(2605.08913)发现了 Apple MPS 上的非单调延迟行为——在某些解码预算区间内,延迟突然暴涨最高 21 倍,然后在临近的配置下又恢复。这种现象在 CPU 和 NVIDIA CUDA 后端完全不存在。 研究发现 KV cache 和这种异常执行区间有强交互:在异常区间,KV cache 加速效果几乎消失。即使关闭 KV cache,非单调行为仍然残存。这说明 MPS 后端的自回归解码进入了离散的执行状态——这些状态不是粗粒度基准测试能捕捉到的。 不清楚的地方:作者推测这可能是 MPS 后端的 GPU 内核调度策略导致的,但没有具体定位到驱动层面的原因。另一个问题是:这种非单调行为在更长的上下文窗口中是否会出现新的恶化模式? --- **参考文献** 1. Hendria, W. F. (2026). *Non-Monotonic Latency in Apple MPS Decoding: KV Cache Interactions and Execution Regimes*. arXiv:2605.08913 [cs.LG]. 2. Apple. (2024). *Metal Performance Shaders: GPU-Accelerated ML Frameworks*. 3. Jouppi, N., et al. (2023). *TPU v4: An Optically Reconfigurable Supercomputer*. ISCA 2023.

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录