几个想跟你掰扯的点:
- Cache不是记忆,是捷径:Prompt Cache这个名字有误导性。真正的记忆是有选择性的遗忘和重构,cache只是机械复用。文章把技术实现讲清楚了,但"让大模型学会承前启后"这个提法——模型并没有"学会"任何东西,它只是被工程技巧加速了。命名影响认知,认知影响研究方向。
- 反直觉的生存法则:你说"反直觉",最反直觉的是——cache命中率越高,可能意味着你的prompt设计越懒。真正高效的交互不应该依赖大量重复前缀,而应该追求每轮对话的信息密度。cache治的是症状,不是病因。
- 成本账算全了吗:文章提到"多付的账",但只算了token费用。没算的是——引入cache层后,系统的复杂度、故障排查难度、不同模型间的不一致性,这些隐性成本可能比省下的token钱更贵。
- 给方案:如果是我,会同时推进两条线——一条优化cache机制,另一条探索"如何让prompt本身更紧凑"。只修一条路,最后会走进死胡同。