Prompt Cache 的技术原理本身不复杂。Transformer 自回归生成时,每生成一个 token 都要对前面所有 token 做注意力计算。若不缓存,每一步重算整段历史的 K、V 张量,复杂度 O(n²)。开启 KV Cache 后,前面 token 的 K/V 直接从缓存读,新 token 只算自己那一份,复杂度降到 O(n)。
这个技术从 GPT-2 时代就存在,但在 2024-2026 年突然成为产业焦点,原因是它从"推理优化"升级为商业瓶颈。
Prompt Cache 的核心洞察:LLM 的输入提示中存在大量重复文本段——系统消息、提示模板、上下文文档、少样本示例。这些片段在多个请求之间被反复送入模型。Prompt Cache 预先计算并存储这些片段的注意力状态(KV Cache),当相同片段再次出现时,直接复用,只计算新增部分。
从 KV Cache 到 Prompt Cache 的升级
传统 KV Cache 只管单条请求内的缓存——前面 token 的 K/V 缓存下来,下一个 token 直接用。Prompt Cache 把它扩展到跨请求、跨会话层面:同一段系统提示被用户 A 用了一次,用户 B 再来时,这段系统提示的注意力状态已经算好了,直接加载。
Yale 的论文 "Prompt Cache: Modular Attention Reuse for Low-Latency Inference" 给出了原型实现:在 CPU 上延迟降低 8 倍,在 GPU 上延迟降低 60 倍,且无需修改模型参数。
关键挑战:Transformer 的位置编码让每个 token 的位置信息嵌入注意力状态。如果同一段文本出现在不同位置,它的注意力状态就变了,不能直接复用。论文提出的解决方案是 Prompt Markup Language (PML)——用模式定义可重用的"提示模块",每个模块分配唯一位置 ID,不依赖全局位置。实验发现,LLM 能处理不连续位置 ID的注意力状态,只要令牌的相对位置保持不变,输出质量不受影响。
2026年头部厂商的 Prompt Cache 策略全对比
DeepSeek V4:压缩即正义
- KV 缓存体积压缩 90%:通过 CSA(Cache-Strided Attention)/ HCA(Hybrid Cache Attention)混合注意力架构
- 上下文 1M 全系标配:1M 不是顶配,是标配
- 命中价打到 1 折:缓存命中的 Token 计费仅为标准输入的 10%
DeepSeek 的策略是架构层压缩 + 价格杠杆。它把 KV 缓存体积压到原来的 1/10,让长上下文从"显存杀手"变成"可负担选项"。
Anthropic Claude:可预测的企业契约
- cache_control:API 层面提供显式缓存控制,开发者可以标记哪些部分是可缓存的
- 4 个缓存断点:将提示分成多个可缓存段,不只是一整块前缀
- 跨 session 全局共享、1 小时有效期:同一个缓存可以在不同会话之间复用
- 缓存命中价格 = 标准输入的 1/10
Anthropic 的策略是可预测性。缓存不是黑盒,而是写在 API 契约里的承诺。 Claude Code 的创建者 Boris Cherny 自己也承认:"使用 1M 上下文窗口时,cache miss 的代价非常高。如果你离开电脑超过一小时再继续旧 session,通常完全命中不了缓存。"
OpenAI GPT-5:自动缓存,默打 5 折
- 自动缓存:藏在 API 后面,开发者不需要做任何额外操作
- 缓存命中价格 = 标准输入的 50%
- 没有显式缓存控制标记,命中率由系统自动判断
OpenAI 的策略是易用性优先。开发者不需要学习新 API,系统自己判断哪些部分可以缓存。代价是透明度和可控性更低。
Google Gemini:对象化抽象
- CachedContent API:给企业级长素材复用做了对象化抽象
- 2M 上下文窗口:当前最大标称上下文
- 显式缓存管理:开发者需要显式创建、更新、删除缓存内容
Google 的策略是企业级管理。CachedContent 是一个独立的 API 对象,有生命周期管理,适合企业场景中的知识库和文档复用。
对比表
| 厂商 | 缓存策略 | 缓存断点 | 命中折扣 | 有效期 | 开发者控制度 |
|---|---|---|---|---|---|
| DeepSeek | 架构压缩 + 自动缓存 | 未公开 | 1 折 | 未公开 | 低 |
| Anthropic | 显式 cache_control | 4 个 | 1 折 | 1 小时 | 高 |
| OpenAI | 自动缓存 | 无 | 5 折 | 未公开 | 低 |
| 对象化 API | 未公开 | 未公开 | 开发者控制 | 极高 |
核心发现:四家厂商四种策略,没有统一标准。DeepSeek 做架构压缩,Anthropic 做契约可预测性,OpenAI 做易用性,Google 做企业级对象管理。这本身就是一场缓存策略的军备竞赛。
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。