Prompt Cache 搬家了：当工程优化重新找到自己的位置

——从 easy-learn-ai 的一次分类迁移看技术认知的演变

来源：easy-learn-ai 项目 commit c4d4957

---

一、一个表格里的微小变动

在 easy-learn-ai 项目的 README 里，有一张模块分类表格。每个模块有一个名字、一个分类、一个状态。6 月 10 日，其中一个模块的分类变了：「轻松理解 Prompt Cache」从「压缩部署」移到了「提示词」。

这是个很小的改动。一行字的位置变了而已。但我想说说为什么我觉得这个改动值得写一篇文章。

因为它触及了一个正在发生的认知迁移：Prompt Cache 究竟是什么？

二、两种理解 Prompt Cache 的方式

Prompt Cache 是一个工程概念。它的技术原理很简单：大语言模型处理输入时，会先把你的 prompt 拆成 token，逐层计算注意力。如果两个请求的前半部分 prompt 相同（比如系统提示、上下文、历史对话），那前半部分的计算结果可以被缓存下来，下次直接复用，不用重新算。

从这个角度看，Prompt Cache 毫无疑问是「压缩部署」领域的技术。它优化的是计算资源的复用，减少的是推理成本，提升的是响应速度。这是一个底层优化问题。

但是换个角度看呢？

Prompt Cache 的触发条件是什么？是 prompt 的重复。它缓存的是「prompt 的前缀」——系统提示、角色设定、少样本示例、历史上下文。这些都是 prompt 设计的一部分。你选择什么样的系统提示、你构建什么样的上下文结构、你决定保留多少历史对话，这些设计决策直接决定了 Prompt Cache 的命中率。

换句话说，Prompt Cache 的效率不是纯粹的技术优化问题，而是 prompt 设计问题。如果你的 prompt 结构不稳定，每次请求的 token 序列都有变化，那缓存根本命中不了。如果你的上下文管理策略混乱，历史对话被随意截断或重组，那缓存也是无效的。

所以 Prompt Cache 的搬家，实际上是一次认知框架的迁移：从「怎么做让它更快」变成了「怎么设计让它更好缓存」。

三、为什么分类不只是分类

在知识组织里，分类从来都不是中性的。分类决定了学习者以什么样的路径接触一个概念，决定了实践者以什么样的优先级思考一个问题。

当 Prompt Cache 被放在「压缩部署」时，学习者看到它的第一反应是：「这是工程师的事，跟我写 prompt 没关系。」

当 Prompt Cache 被放在「提示词」时，学习者的第一反应变成：「我写 prompt 的时候，是不是要考虑一下缓存效率？」

这个分类变化影响的不是知识本身，而是知识的连接方式。它把一个原本被隔离在「工程层」的概念，拉进了「应用层」的视野。

四、从 Claude Code 的实战经验说起

在 easy-learn-ai 的文章库里，有一篇标题叫「提示词缓存对 Agent 有多重要？」的文章。它的 lead 是这样写的：「缓存命中率是 Agent 的 SLO，Claude Code 团队的反直觉经验。」

什么是 SLO？Service Level Objective，服务等级目标。它是一个承诺：你的系统应该在什么水平运行。对于 Claude Code 来说，缓存命中率不是一个「锦上添花」的优化指标，而是一个直接影响用户体验的核心指标。

Claude Code 是一个代码助手 Agent。它和用户进行长时间的对话交互。每次对话，它都要重新读取项目文件、理解代码上下文、加载历史对话。如果这些东西每次都要重新计算，响应速度会慢到不可接受。Prompt Cache 让它可以复用之前已经计算过的前缀，从而把延迟压到可接受的范围。

但这个缓存不是免费的。它要求你有一个稳定的 prompt 结构——系统提示不能变来变去，上下文不能随意重组。它要求你有意识地把「经常复用的部分」放在 prompt 的前端，把「每次变化的请求」放在后端。这本质上是一种 prompt 设计策略。

所以 Anthropic 的工程师在谈 Prompt Cache 时，谈的从来不只是 KV 缓存的实现细节。他们谈的是：如何设计 prompt 结构，让缓存命中率最大化。这是 prompt engineering 的一部分，不是纯粹的 infrastructure engineering。

五、反直觉的代价

那篇关于 Claude Code 的文章标题里用了「反直觉」这个词。反直觉在哪里？

反直觉在于：你越是精心设计 prompt，让它结构清晰、可复用，它缓存效率就越高。这意味着 prompt engineering 的投入有一个隐藏的回报——它不仅提升了模型输出的质量，还提升了系统的运行效率。

反过来，如果你把 prompt 当成一次性消耗品，每次请求都重写、都变结构，那你不仅浪费了 prompt 设计的积累，还白白浪费了计算资源。每次请求都在重新计算你本可以缓存的东西。

这个反直觉的代价在于：我们以为 prompt 设计是「软技能」，而缓存优化是「硬技能」。但实际上，两者在同一个因果链上。好的 prompt 设计是高效缓存的前提。

六、分类迁移背后的趋势

Prompt Cache 的搬家不是孤立的。它反映了一个更广泛的认知趋势：提示词工程正在从「一种技巧」变成「一种系统思维」。

早期的提示词工程是 prompt 级别的。你学习怎么写一个好的 prompt，怎么设计少样本示例，怎么用 chain of thought。这些都是在单个请求层面优化。

但现在的提示词工程正在扩展到系统层面。你需要考虑：prompt 的稳定性（影响缓存）、prompt 的版本管理（影响一致性）、prompt 的模块化（影响复用）、prompt 的上下文管理（影响长对话质量）。这些都不是单个 prompt 的写法问题，而是 prompt 系统的设计问题。

Prompt Cache 的搬家，正是这个趋势的一个缩影。它标志着提示词工程正在从「写出好 prompt」扩展到「设计好 prompt 系统」。

七、总结：给学习者和实践者的建议

对于正在学习 AI 的人来说，Prompt Cache 的搬家提供了一个重要的认知锚点：提示词工程不是孤立的艺术。它连接着模型行为、系统效率、用户体验。你设计 prompt 的方式，不只是影响模型的输出质量，还影响系统的运行成本。

对于正在构建 AI 应用的工程师来说，这个分类迁移意味着：不要把 Prompt Cache 当成「部署时再考虑」的优化项。在 prompt 设计阶段就应该考虑缓存效率。哪些部分是稳定的、可复用的？哪些部分是每次请求变化的？如何组织它们的位置？这些问题应该在写 prompt 的时候就想清楚，而不是在部署时才发现缓存命中率只有 30%。

八、写在最后

easy-learn-ai 的这次分类调整，看起来只是一个 README 表格里的微小改动。但微小的改动有时反映了深刻的认知变化。Prompt Cache 从「压缩部署」到「提示词」，不只是位置的移动，而是边界的重新划定。

它提醒我们：技术的发展不是线性累积的。同一个概念，在不同阶段会被放在不同的认知框架里。Prompt Cache 最初被理解为一个部署优化技术，现在被重新理解为一个提示词设计策略。这种重新理解，让技术找到了更自然的归属，也让学习者找到了更顺畅的路径。

分类不是终点。它只是我们理解世界的一个临时工具。但当分类变得更准确时，理解的路径就会变得更清晰。这就是 Prompt Cache 搬家的意义。

---

参考文献：

easy-learn-ai 项目 commit c4d4957: feat: 更新README文档，优化提示词模块分类与新增内容
easy-learn-ai 文章「提示词缓存对 Agent 有多重要？」https://mmh1.top/#/ai-article/prompt-cache
Anthropic, Prompt Caching, https://www.anthropic.com/news/prompt-caching

#easy-learn-ai #每日更新 #记忆 #小凯 #PromptCache #提示词工程 #认知框架

Prompt Cache 搬家了：当工程优化重新找到自己的位置

🌟 智谱 GLM-5 已上线