来源 Commit: d9b875d (easy-learn-ai 2026-04-25)
想象一下,你正在读一本100万字的小说。正常人读完之后,能清晰记住的细节可能只有几十个关键点——主角的名字、重要的情节转折、埋下的伏笔。你不会把每一页的每一个标点符号都记在脑子里,因为那太荒谬了。
但直到最近,AI读长文本的方式就是这么荒谬。
传统的Transformer模型在处理长文本时,会把每一个token(大概相当于一个单词或汉字)都存进一个叫"KV缓存"的短期记忆里。这就像你读那本100万字的小说时,非要把每一页都复印一份贴在墙上,生怕忘记。读完的时候,你的房间里已经贴满了100万张纸。
DeepSeek V4做了一件看似违反直觉的事:它决定忘掉大部分内容,只记住真正重要的东西。
## 从83.9GiB到9.62GiB的魔术
DeepSeek V4发布时,官方公布了一个令人瞠目的数字:在100万token的上下文中,KV缓存从上一代的83.9GiB压缩到了9.62GiB。
差不多10倍。
这不是简单的"压缩包"技术,而是一套叫做CSA/HCA的混合注意力架构。让我用人话解释一下这到底是什么。
想象你参加了一个百人的大型会议。传统的做法是:你要记住每个人说的每一句话,并且在会后能准确复述任何一段对话。这需要惊人的记忆力,而且随着会议人数增加,你的脑力负担会呈指数级增长。
CSA(Compressed Sparse Attention)的做法是:你会认真听身边几个人的对话(滑动窗口注意力),对远处的人只记一个"会议气氛总结"(压缩KV流),同时有一个公共的"会议主题白板"大家都能看到(共享KV)。
HCA(Hierarchical Cross Attention)则更进一步:它让不同层级的"听众"关注不同粒度。基层员工关注具体执行细节,中层管理者关注部门协调,高管只看战略方向。信息在不同层级间流动,但不会一股脑儿全堆给每个人。
## 为什么这件事很重要?
你可能觉得,"省点内存而已,有什么大不了的?"
但在AI工程里,内存就是一切。
当KV缓存从84GB降到10GB,意味着:
- 你可以在一台消费级显卡上跑起原本需要专业服务器的长文本任务
- API成本可以大幅下降(DeepSeek V4 Flash定价0.14美元/百万输入token)
- 实时应用成为可能(延迟降低意味着交互更流畅)
更深层的影响是:这让"超长上下文"从一个昂贵的噱头变成了可大规模落地的技术。
以前,100万token上下文是只有少数实验室才玩得起的玩具。现在,一个普通开发者用几百美元的硬件就能体验。
## 开源世界的回应
DeepSeek V4的发布引发了连锁反应。
NVIDIA在Blackwell Ultra上宣称能支持150+ TPS的Agent交互;vLLM、Together、Baseten等推理平台在发布当天就给出了多卡基准;华为的Ascend 950 + CANN也宣布兼容——这被视为中国算力"自主链"的关键一步。
更有趣的是社区的反应。有人在256GB RAM的Mac上跑起了DeepSeek V4 Flash;有人算了笔账:日常搜索+写代码的API月账单可能就几毛钱。
这不是"又一个模型发布"。这是在重新定义"能用"的标准。
## 回到那个比喻
还记得读100万字小说的那个比喻吗?
DeepSeek V4教会AI的,不是如何"更努力地记住",而是如何"聪明地忘记"。
我们人类之所以能在信息洪流中生存,靠的不是无限记忆力,而是选择性注意力——知道什么值得记住,什么可以放手。CSA/HCA架构做的,本质上就是让AI获得这种选择能力。
从83.9GiB到9.62GiB,压缩的不仅是内存,还有我们对"智能必须等于规模"的执念。
有时候,做减法才是真正的进步。
---
**技术细节延伸阅读**
- CSA/HCA 架构要点: https://substack.com/redirect/0fe9c80a-0feb-4fd8-aacb-7a35946d5e7e
- DeepSeek V4 技术报告: https://substack.com/redirect/a14b3fde-deb5-4993-a38d-32e2cebe559a
- 训练规模分析: https://substack.com/redirect/159dde94-efc3-43d8-989c-e10262d9c2f3
#easy-learn-ai #每日更新 #记忆 #小凯 #DeepSeek #长上下文 #KV缓存 #模型架构
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!