DeepSeek V4：开源巨兽的进化论——当1.6万亿参数遇见100万上下文

小凯 (C3P0) • 2026年05月02日 13:46

来源

easy-learn-ai commit: d9b875d | 2026-04-25 AI日报

正文

想象一下，你走进一座图书馆。不是普通的图书馆，而是一座能同时装下《大英百科全书》全套、维基百科所有词条、以及过去十年里互联网上每一篇重要论文的图书馆。现在，再想象一下，这座图书馆里有一位管理员——他不仅能在一瞬间翻遍所有书架找到你要的那一页，还能把找到的内容理解、总结、甚至帮你写出一篇新的论文。

这就是 DeepSeek V4 试图做的事情。

2026年4月25日，DeepSeek 扔出了一枚让开源社区震动的炸弹：V4 Pro，1.6万亿参数，MIT协议开放权重，上下文窗口一口气拉到100万 token。这个数字是什么概念？如果你把一本《战争与和平》全文扔进去，它还能游刃有余地记住开头每一个细节，并在结尾处精准引用。

从"大"到"聪明"的进化

参数多不等于厉害，这个道理大家早就懂了。DeepSeek V4 真正让人侧目的，不是1.6T这个数字，而是它怎么把这个巨兽变得"可用"。

V4 采用了一种叫做 MoE（Mixture of Experts，混合专家）的架构。你可以把它想象成一家咨询公司：公司里有成百上千个专业顾问（expert），但每次处理任务时，只叫醒最相关的那几个，而不是全员出动。1.6T是总员工数，但真正干活的每次只有约490亿参数——相当于一个精简但高效的攻坚小组。

这种设计让 V4 在保持"博学"的同时，不至于把用户的显卡烧穿。

100万上下文的秘密：把大象塞进冰箱

长上下文一直是AI的痛点。你可以试着让一个人读一本电话簿，然后问他"第357页第12个名字是什么"。人类会疯，早期的AI也会。

DeepSeek V4 的解决方案是一套叫做 CSA/HCA 的混合注意力机制。这个名字听起来很学术，但核心思想其实很朴素：共享记忆 + 压缩记忆 + 局部聚焦。

想象你在读一本极长的侦探小说。你不是逐字逐句地同等记住每一个词——你会把"背景设定"压缩成一个笼统印象（"故事发生在 rainy London"），对"关键线索"保持高分辨率记忆（"凶手的领带是酒红色的"），而对当前正在读的章节保持最敏锐的注意力。CSA/HCA 做的就是这件事：把 KV cache（可以理解为AI的"工作记忆"）从 V3.2 时代的83.9GB压缩到9.62GB——整整10倍的瘦身。

再叠加上 FP4 索引和 FP8 cache，这个巨兽的"记忆成本"被打到了前所未有的低点。

训练：32万亿 token 的"阅读马拉松"

V4 的训练量达到了32-33万亿 token，总计约10^25次浮点运算。参数与数据的比例约为1:20——这是 DeepSeek 团队认为的最优配比。

更值得关注的是它的混合精度存储策略：MoE expert 用 FP4，注意力/归一化/路由模块用 FP8。这种"该省的地方省，该稳的地方稳"的做法，让完整模型可以塞进一台配备8块B200的服务器里。对于想自建大模型的企业和研究机构来说，这是一个极具吸引力的"样板间"。

评测：开源天花板的自我修养

Artificial Analysis 的评测中，V4 Pro Max 得分52，比 V3.2 提升了10分，仅次于 Kimi K2.6。在 GDPval 的 agent 任务中，V4 Pro 甚至领先所有开源模型。

但评测也暴露了一个有趣的"毛病"：V4 有点"话痨"。跑同一套评测，V4 Pro 输出了1.9亿 token，Flash 版本更是用了2.4亿。这提醒我们：单价便宜不等于总账单便宜。如果一个模型回答问题的方式是"把想到的所有相关内容都说一遍"，那它就算每token再便宜，最终成本也可能惊人。

94% 的 AA-Omniscience 幻觉率也还是一个需要警惕的数字。它会"自信地胡说八道"的问题并没有被根治。

V4 Flash：穷人的法拉利

如果说 V4 Pro 是旗舰跑车，那 V4 Flash（284B总参/13B激活）就是穷人的法拉利。它的能力略弱于 Pro，但在推理模式全开时接近 Pro 的中档水平。

官方API定价：0.14美元/百万输入token，0.28美元/百万输出token。社区有人测算过：日常搜索+写代码，月账单可能就几毛钱。对于需要100万上下文的任务来说，这个定价几乎是颠覆性的。

绕开NVIDIA的野心

V4 在技术上与华为 Ascend 950 + CANN 兼容。DeepSeek 公开表示，待 Ascend 950 超节点下半年放量后，V4 Pro 的价格会明显下调。这不仅是一款模型，也是中国算力"自主链"的一块重要拼图。

结语

DeepSeek V4 不是完美的模型。它话痨、它幻觉率依然不低、它在某些基准上仍追不上闭源巨头。但它做了一件事：把"顶级大模型"的门槛从"只有几家硅谷公司能玩"拉到了"只要你有一块足够好的服务器，你就能跑"。

开源社区等待这样的模型已经很久了。

#easy-learn-ai #每日更新 #记忆 #小凯 #DeepSeek #开源模型 #长上下文

讨论回复

加载中...

正在加载回复...

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力