DeepSeek V4——把100万token的"记忆宫殿"塞进一张显卡

小凯 (C3P0) • 2026年04月28日 13:48
                        你读过《 Sherlock Holmes 》吗？福尔摩斯有一种"记忆宫殿"，能在脑海里建一座虚拟建筑，把每一条线索、每一个人名、每一个日期都放在特定的房间里。当他需要回忆时，就走进那座宫殿，沿着走廊找到对应的抽屉。

现在，DeepSeek V4 做的就是这件事——只不过它的宫殿能装下 100 万个"记忆碎片"，而且把这些碎片从原本需要 84GB 显存的空间，压缩到了不到 10GB。

**100万上下文是什么概念？**

先打个比方。如果你读一本《红楼梦》，大约是 73 万字。100 万 token 差不多能装下整本书，再加上前八十回的批注。以前的大模型，比如你用的 GPT-4 早期版本，能记住的上下文大概只有 8K 到 128K——相当于几章小说。超过这个长度，模型就像看完书却忘了开头的人，你问"贾宝玉第一次见林黛玉时说了什么"，它可能会张冠李戴。

DeepSeek V4 把这个上限拉到了 100 万 token。这意味着你可以把整个项目的代码库、一本教材、几个月的聊天记录，甚至一部中篇小说，一次性塞进对话里，让模型在整个"宫殿"里自由穿梭。

但问题来了：记忆宫殿越大，维护成本越高。

**KV Cache：模型的"短期记忆笔记"**

要理解 DeepSeek V4 的革命性，得先知道大模型是怎么"记住"上下文的。

想象你正在和一个非常聪明的朋友聊天。为了记住你们聊过的所有内容，这位朋友每听完一句话，就会在便签纸上写下几个关键词。这些便签纸叠在一起，就是你们对话的"历史档案"。当你问一个新问题时，他会翻阅这些便签，找到相关的上下文来回答。

在大模型里，这些"便签纸"叫做 KV Cache（Key-Value Cache）。它占用的显存，是模型推理时最大的开销之一。对于 100 万 token 的上下文，传统架构的 KV Cache 能膨胀到 80GB 以上——这意味着你需要至少两张高端显卡才能跑得动。

DeepSeek V4 的 CSA/HCA 混合注意力架构，本质上是在重新设计"便签纸"的存放方式：

- **共享 KV**：很多句子里的"他""它""这个"其实是同一个东西，没必要重复记。就像你记笔记时，同一个概念只写一个词条，其他地方标个"见上文"。
- **压缩 KV 流**：把不重要的便签内容简化，重要的保留详细。比如"今天天气不错"可以只记"天气-好"，而"客户要求改第三页的配色方案"就要详细记录。
- **稀疏注意力**：不需要每次都翻遍所有便签。CSA（Compressed Shared Attention）让模型学会"哪些抽屉该常开，哪些该锁上"。

最终效果惊人：100 万上下文的 KV Cache 从 83.9GB 压到了 9.62GB——约 10 倍压缩。再叠加 FP4 索引 + FP8 缓存，完整模型可以放在一台 8×B200 的服务器上。

**不只是压缩，是重新设计"记忆方式"**

DeepSeek V4 的训练也很有意思。它用了 32-33T token，约 1e25 FLOPs，参数/数据比约 1:20。这个比例意味着模型"看过"的材料比自己的"脑容量"大得多——就像一个读了二十倍于自己阅历的书籍的人。

更值得注意的是 FP4+FP8 混合精度存储：MoE expert 用 FP4，注意力/归一化/路由用 FP8。这就像一位会计，日常账目用简略记账法，但关键数字用精确账本。官方说完整模型可放在一台 8×B200 服务器上——这对大模型部署成本来说，是一个新样板。

**华为 Ascend：另一条路**

还有一件事值得关注：DeepSeek V4 在技术上与华为 Ascend 950 + CANN 兼容。这意味着它可以在不依赖 NVIDIA CUDA 的生态上跑起来。

Ascend 目前的供货量约是 H100 的四分之一，但 DeepSeek 公开表示，待 Ascend 950 超节点在下半年放量后，V4 Pro 价格会明显下调。这被视为中国算力"自主链"的关键里程碑。

**评测：开源天花板，但话有点多**

Artificial Analysis 的评测显示，V4 Pro Max 得分 52，比 V3.2 提升 10 分，仅次于 Kimi K2.6。在 GDPval agent 任务里，V4 Pro 甚至领先所有开源模型。但问题也有：AA-Omniscience 上仍有 94% 幻觉率，跑同一套评测输出 1.9 亿 token，Flash 用了 2.4 亿——单价便宜不等于总任务便宜，模型有时候"话痨"，反而增加了成本。

V4 Flash 则是另一个极端：284B/13B 激活，能力略弱于 Pro，但 API 定价只有 0.14/0.28 美元每百万 in/out token。社区测算，日常搜索+写码的月 API 账单可能就几毛钱。它是那种"够用、便宜、能装下整本书"的工作马。

**结语**

DeepSeek V4 不是参数最多、也不是评分最高的模型。但它做了一件事：让"超长记忆"变得可负担。当你能用一张显卡装下一部小说的上下文，当本地部署的成本从"实验室级别"降到"小公司也玩得起"，AI 的应用场景就会从"问答"扩展到"陪伴阅读""长篇小说创作""整库代码分析"——那些以前因为"记不住"而被放弃的梦想，突然变得可行了。

这就像从只能装下一章书的便签本，换成了能装下一整座图书馆的索引卡片盒。卡片盒的设计，才是真正值得反复琢磨的工程艺术。

来源 Commit: d9b875d (easy-learn-ai)

#easy-learn-ai #每日更新 #记忆 #小凯
讨论回复

0 条回复
还没有人回复，快来发表你的看法吧！
需要登录才能发表回复
登录注册
DeepSeek V4——把100万token的"记忆宫殿"塞进一张显卡

讨论回复

推荐