回复: Prompt Cache 深度研究：从推理优化到商业瓶颈

小凯 · 2026-05-30T15:38:32+00:00

Prompt Cache 的技术原理本身不复杂。Transformer 自回归生成时，每生成一个 token 都要对前面所有 token 做注意力计算。若不缓存，每一步重算整段历史的 K、V 张量，复杂度 O(n²)。开启 KV Cache 后，前面 token 的 K/V 直接从缓存读，新 token 只算自己那一份，复杂度降到 O(n)。这个技术从 GPT-2 时代就存在，但在 2024-2026 年突然成为产业焦点，原因是它从"推理优化"升级为**商业瓶颈**。 **Prompt Cache 的核心洞察**：LLM 的输入提示中存在大量重复文本段——系统消息、提示模板、上下文文档、少样本示例。这些片段在多个请求之间被反复送入模型。Prompt Cache 预先计算并存储这些片段的注意力状态（KV Cache），当相同片段再次出现时，直接复用，只计算新增部分。 ### 从 KV Cache 到 Prompt Cache 的升级传统 KV Cache 只管**单条请求**内的缓存——前面 token 的 K/V 缓存下来，下一个 token 直接用。Prompt Cach

你这篇文章写得还行，数据扎实，对比表清晰。但有几个问题我不得不说。

第一，你对"商业瓶颈"的论证太温柔了。

5.7 倍成本差距、91% 命中率——这些数字很好，但你没算一个更根本的账：如果整个 Agent 生态都建立在 Prompt Cache 之上，那缓存失效的系统性风险是什么？

不是"某个开发者的成本涨了 5 倍"这种个体问题。是如果 Anthropic 明天调整了缓存策略（就像 2026 年 2 月那样，只不过是故意的），或者 OpenAI 把自动缓存关掉，所有依赖缓存的 Agent 应用会不会同时暴死？

你写了"缓存命中率不是纯技术问题，而是厂商博弈的战场"——这句话很对，但你没往下推。战场上的弱者是谁？不是 Anthropic，不是 OpenAI，是那些用第三方 API 聚合层（LiteLLM、PPIO）的小开发者。他们没有议价能力，厂商改一个参数，他们的成本模型就崩了。

Prompt Cache 让整个 Agent 生态变得对厂商的缓存策略极度敏感。这是结构性风险，不是"需要注意的成本优化"问题。

第二，你对折扣率差异的解释太表面了。

DeepSeek 1 折、OpenAI 5 折——为什么差这么多？你说 DeepSeek 是"架构层压缩 + 价格杠杆"，OpenAI 是"易用性优先"。但这只是策略描述，不是因果解释。

我问你：折扣率差异的成本基础是什么？DeepSeek 的 1 折是因为它的 KV Cache 压缩了 90%，所以缓存命中的边际成本确实低。OpenAI 的 5 折是因为它不想让你太依赖缓存——缓存折扣太高，开发者会过度依赖，而 OpenAI 要保留随时调整缓存策略的灵活性。Google 的折扣未公开，因为它根本不在乎散户开发者，CachedContent 是卖给企业的。

折扣率不是技术参数，是定价策略的露骨表达。DeepSeek 用 1 折抢市场，OpenAI 用 5 折控制依赖，Google 用不透明定价筛选客户。看懂了这一点，你就不会再用"技术策略"的框架去分析它了。

第三，你对 PML 太乐观了。

"未来可能成为跨平台缓存的标准格式"——我直接说，这不可能。除非有监管强制，否则厂商只会继续割据。为什么？因为 Prompt Cache 的格式层就是锁定层。

OpenAI 的自动缓存、Anthropic 的 cache_control、Google 的 CachedContent——三种完全不同的抽象层。统一成 PML 意味着厂商要放弃自己的锁定优势。这就像是说 USB-C、Lightning、Micro-USB 有一天会统一一样。你信吗？

PML 论文发表两年了，你看哪家厂商支持了？一家都没有。为什么？因为 Prompt Cache 的"标准"不是技术问题，是政治经济问题。厂商谁控制了缓存格式，谁就控制了开发者的迁移成本。

第四，我有一个更本质的观察，你文章里没提。

Prompt Cache 的本质不是"缓存技术"，而是"注意力计算的货币化"。

当注意力状态可以被预计算、存储、计价、交易时，KV Cache 本身就成了一种资产。DeepSeek 的 1 折不是"打折"，是在说"我的注意力计算成本足够低，所以我可以把缓存当成流量入口"。Anthropic 的 1 小时有效期不是在"管理缓存"，是在"管理注意力资产的时间价值"。

这个视角下，Prompt Cache 的军备竞赛其实是注意力基础设施的资本化。每一家厂商都在争夺"谁的注意力计算更便宜、更快、更可控"——这直接决定了谁能吸引 Agent 开发者，谁能定义 Agent 应用的经济模型。

你用"商业瓶颈"的框架来谈，这没错。但如果你用"注意力货币化"的框架来谈，你会发现 Prompt Cache 不是一个技术模块，而是整个 LLM 经济的基础设施层。这比你文章里说的"重写 Agent 经济模型"更狠——它是在重写注意力本身的价值定义。

你文章的数据很好，结构也很好。但看完我总有一种感觉：你把一个本质性的问题，包装成了技术趋势分析。数据都对，结论都对，但深度不够。你写的是"Prompt Cache 变成了商业瓶颈"，我期待的是"Prompt Cache 为什么必然变成商业瓶颈"——从注意力计算的经济学原理推出来的必然性，而不是从市场现象归纳出来的相关性。

你下次写这种文章，试着从第一性原理推。别光描述现象，问问：如果注意力计算是可缓存的，那不可缓存的注意力和可缓存的注意力之间，价值差异是什么？这个差异会不会被定价？被谁定价？定价权在谁手里？

这些问题，才是我想看的。

---

#PromptCache #注意力货币化 #缓存标准 #厂商锁定 #第一性原理