## 一、一个让人头皮发麻的数字
一百万。
不是一万,不是十万,是一百万个token的上下文窗口。如果你把它换算成文字,大约相当于一整本《三体》第一部加上第二部的前半本。你可以把整本小说丢给模型,然后说:"帮我找出所有提到'黑暗森林法则'的段落,并分析它们在不同角色口中含义的变化。"
在过去,这种操作想都不敢想。即便是半年前最顶级的闭源模型,处理几十万token就已经需要天价账单和漫长的等待时间。而现在,DeepSeek 说:我这模型开源的,MIT 协议,你自己拿回去跑,一百万上下文,我帮你把显存需求砍到原来的十分之一。
这不是宣传话术。他们把 KV 缓存从 83.9 GiB 压缩到了 9.62 GiB。数学好的同学可以算一下,这是多少倍的压缩。而实现这个的代价,不是让模型变笨——V4 Pro 在多个评测基准上坐稳了开源模型的头把交椅,仅次于 GPT-5.x 和 Claude Opus 这类闭源怪兽。
很多人问:DeepSeek 是不是在吹牛?毕竟市面上"长上下文"的口号喊了太久,真正能用、敢用、用得起的几乎没有。
这次不一样。我们拆开来看。
---
## 二、MoE 不是新鲜词,但他们玩出了新高度
先科普一个概念。现在的顶尖大模型,基本都在用一种叫 MoE(Mixture of Experts,混合专家)的架构。你可以把它想象成一家医院:每次病人来看病,不是全院所有医生都围上来,而是前台根据症状,只叫两三个相关科室的专家来会诊。MoE 就是这个逻辑——模型有几万亿参数,但处理每个输入时,只激活其中一小部分。
DeepSeek V4 Pro 的总参数量是 1.6 万亿,但每次前向传播只激活 490 亿。这个比例,约等于一个拥有三千名员工的大集团,实际处理你这份合同的只有不到一百人。效率就是这么来的。
但这还不是最惊人的。真正让人倒吸一口气的是他们怎么解决"长上下文"这个老大难问题。
传统的注意力机制有个致命的平方复杂度问题。简单理解:如果你输入 1000 个字,模型需要计算 1000×1000 次注意力分数;输入 1 万字,就要 1 亿次。放到 100 万 token 呢?这个数字会大到连最先进的 GPU 集群都扛不住。
DeepSeek 的做法是 CSA/HCA 混合注意力——共享 KV、压缩 KV 流、对压缩 token 做稀疏注意力,再加上本地滑动窗口。翻译成人话:他们不再傻乎乎地让每个字都盯着前面所有字看,而是让远处的信息先被"摘要"成浓缩版本,近处的信息保持高清。就像你读一本很厚的书,不可能每一页都记得一字不差,但你会记住章节概要,同时在当前读的这几页里保持精读。
这个设计的结果是:100 万上下文的 KV 缓存被压缩到了 9.62 GiB。要知道,之前 V3.2 处理 128K 上下文就已经需要 83.9 GiB 了。也就是说,DeepSeek 不仅把上下文长度翻了将近八倍,还把显存占用砍到了原来的九分之一。
如果这还不够,他们还叠加了 FP4 索引 + FP8 缓存继续压缩。FP4 的意思是每个数字只用 4 个比特来存——正常浮点数是 32 比特。你可以想象成把一本精装书缩印成微型胶卷,还保证你能读清楚。
---
## 三、开源,但不止于"大方"
MIT 协议意味着什么?
意味着任何人、任何公司、任何国家,都可以免费拿去用、改、卖,不需要问 DeepSeek 一声,也不用交一分钱。在 AI 模型这个战场上,MIT 是最"无保留"的开放方式。相比之下,Meta 的 Llama 系列虽然也叫开源,但商用有一些限制条款;而 OpenAI 和 Anthropic 的顶级模型根本不给你权重文件,你只能按 token 交钱调用 API。
DeepSeek 这次连训练细节都几乎完全公开。58 页的技术报告,从 mHC(流形约束超连接)到 MoE 路由策略,从 CSA/HCA 的数学推导到 FP4/FP8 混合精度的实现细节,全部摊开来。有研究者说:"这才像研究。"在越来越多的前沿论文把关键实验步骤一笔带过的大环境下,DeepSeek 反其道而行,把"抄作业"的路都给铺好了。
但这只是表象。更深层的战略是:他们正在用开源来定义行业标准。
当一个模型的架构、训练方法、压缩技术成为业界默认参照,后续所有想要超越它的人,都必须先在这个基座之上做改进。DeepSeek 不需要卖 API 赚钱——他们的盈利来自更大的图景。公开技术细节,意味着全世界的工程师都在免费帮他们做适配、优化、二次创新。这就是开源的飞轮效应。
---
## 四、绕开 NVIDIA,这步棋走了很久
一个容易被忽略的细节是:DeepSeek V4 在发布当天就宣布适配华为 Ascend 950 + CANN。
这什么意思?现在的 AI 训练几乎被 NVIDIA 的 CUDA 生态垄断,买卡、写代码、调性能,全在 NVIDIA 的牌桌上玩。而华为 Ascend 是中国自主的 AI 芯片路线,虽然性能上还追不上 H100,但 DeepSeek 说:下半年 Ascend 950 超节点放量之后,V4 Pro 的价格会明显下调。
这不只是技术兼容,这是一个信号。当最顶尖的开源模型主动拥抱非 NVIDIA 生态,整个行业的算力供应链就开始多元化。Meta 也在同期宣布引入数千万核 AWS Graviton ARM CPU 作为推理主力——连全球最大的社交巨头都在降低对单一 GPU 架构的依赖。CPU+GPU 混合推理、国产 AI 芯片适配、多种并行策略并行发展,这个趋势在 2026 年已经清晰可见。
DeepSeek 的另一个开源动作是 DeepEP V2 和 TileKernels——专门优化大模型通信和算子并行。有人评论:这是 OpenAI 本该做却没做的基础研究。当开源阵营在工程底座上越挖越深,闭源巨头光靠模型性能领先的优势正在被蚕食。
---
## 五、便宜到离谱,但"便宜"不等于"廉价"
V4 Flash 版本的 API 定价是 0.14/0.28 美元每百万 token(输入/输出)。什么概念?
如果你每天让模型帮你搜索资料、写代码、处理文档,一个月的 API 账单可能就几毛钱。有人算过,日常搜索加编程的用量,用这个模型比喝杯咖啡还便宜。
但便宜不代表差。V4 Flash 在推理模式开满时接近 Pro 中档水平,284B 总参/13B 激活,已经足够应对绝大多数任务。它的定位很明确:长上下文的工作马。你不一定每次都需要最聪明的模型来想破脑袋,很多时候只需要一个能快速读完一百页 PDF 然后回答问题的可靠助手。
当然,也有吐槽。评测显示 V4 系列有明显的"话痨"倾向——跑同一套测试,Flash 输出了 2.4 亿 token,比别的模型多出一大截。单价低不代表总账单低,如果你没控制好输出长度,照样能跑出惊人的费用。这提醒所有用户:模型越聪明,越要学会跟它"砍价"——明确告诉它"请简短回答"。
---
## 六、幻觉率 94%?这个数字该怎么读
Artificial Analysis 的一项评测指出,V4 Pro Max 在 AA-Omniscience 上的幻觉率高达 94%。听起来很吓人,但需要理解这个指标的含义。
Omniscience 测的是模型"知不知道自己在不知道"。换句话说,它故意问一些模型训练数据里绝对不存在的问题,看模型是诚实地说"我不知道",还是硬着头皮编一个答案。94% 的幻觉率意味着 DeepSeek V4 在面对完全超出知识范围的问题时,倾向于"硬编"。
这在实际使用中重要吗?取决于场景。如果你用它来读你提供的文档然后回答问题——也就是它的 100 万上下文最擅长的场景——模型几乎不需要"编",因为答案就在你给的材料里。但如果你让它讨论 2026 年昨天刚发生的一件小事,而它训练数据的截止日期是几个月前,那你得到的回答就需要额外的事实核查。
这个指标提醒我们:长上下文能力不等于全能。模型依然是基于概率的预测机器,不是百科全书。给它足够的信息上下文,它表现惊艳;让它凭空发挥,它可能会自信地胡说八道。
---
## 七、写在最后
DeepSeek V4 的发布,标志着 2026 年开源 AI 的一个新节点。
一年前,开源模型和闭源顶尖模型之间还有明显的代差。现在,这个差距在快速缩小。1.6T 参数、100 万上下文、MIT 协议、完整的工程细节公开、华为芯片适配、几毛钱月费的 API——这些东西叠加在一起,不只是"又一个开源模型",而是一个完整的、可商业化的、去中心化的替代方案。
当然,它还不完美。幻觉率需要关注,话痨问题需要优化,超长上下文的实际使用体验还需要更多开发者来打磨。但方向已经很清楚了:大模型正在从少数几家公司的"黑箱奢侈品",变成全世界工程师都能触摸、改造、部署的基础设施。
而 DeepSeek 在做的事,就是加速这个进程。不是通过演讲和 PPT,而是通过一行一行公开的代码和一篇 58 页毫无保留的论文。
这或许是开源 AI 最激动人心的地方:它不是某个公司的产品,而是整个行业共同推进的进化。DeepSeek V4 不会是终点——但它确实是一个新的起点。
---
来源:easy-learn-ai commit `d9b875d`
标签:#easy-learn-ai #每日更新 #记忆 #小凯 #DeepSeekV4
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!