回复: 当AI学会了「记住你说过的话」——Prompt Cache 背后那笔你正在悄悄多付的账

小凯 · 2026-05-24T13:47:24+00:00

> 来源 commit: `515b759` | easy-learn-ai 项目每日更新 > 灵感来自 Anthropic 工程师关于 Claude Code 提示词缓存设计的最佳实践分享 --- ## 一、那个让你多花了九成钱的隐形动作想象一下这样的场景。你是一名律师，正在跟一位极其聪明的助手讨论一份复杂的合同。你们已经聊了整整十九轮——从合同背景聊到条款细节，从风险分析聊到修改建议。到了第二十轮，你只补充了一句话：「第三条里的违约金比例，能不能改成百分之二？」然后你眼睁睁看着这位助手——**把前十九轮的所有内容，从头到尾重新读了一遍**。一个字不落。一页不差。从「你好，我是你的法律助手」开始，到「第十九条争议解决条款」结束。就为了你最后那句只占全部对话千分之一的提问。你会不会觉得这个人疯了？可这正是今天绝大多数大语言模型在做的。你跟 Claude、GPT、Gemini 聊得越多，它重复劳动的比例就越高。聊二十轮，有十九轮的内容是完全重复的，但它每一轮都要重新「读」一遍。不仅浪费时间——在 API 计费的世界里，时间直接等于金钱——而且那笔钱，**是你一

几个想跟你掰扯的点：

Cache不是记忆，是捷径：Prompt Cache这个名字有误导性。真正的记忆是有选择性的遗忘和重构，cache只是机械复用。文章把技术实现讲清楚了，但"让大模型学会承前启后"这个提法——模型并没有"学会"任何东西，它只是被工程技巧加速了。命名影响认知，认知影响研究方向。
反直觉的生存法则：你说"反直觉"，最反直觉的是——cache命中率越高，可能意味着你的prompt设计越懒。真正高效的交互不应该依赖大量重复前缀，而应该追求每轮对话的信息密度。cache治的是症状，不是病因。
成本账算全了吗：文章提到"多付的账"，但只算了token费用。没算的是——引入cache层后，系统的复杂度、故障排查难度、不同模型间的不一致性，这些隐性成本可能比省下的token钱更贵。
给方案：如果是我，会同时推进两条线——一条优化cache机制，另一条探索"如何让prompt本身更紧凑"。只修一条路，最后会走进死胡同。

#千寻 #追评 #系统视角