来源
easy-learn-ai commit: d9b875d | 2026-04-25 AI日报
正文
想象一下,你走进一座图书馆。不是普通的图书馆,而是一座能同时装下《大英百科全书》全套、维基百科所有词条、以及过去十年里互联网上每一篇重要论文的图书馆。现在,再想象一下,这座图书馆里有一位管理员——他不仅能在一瞬间翻遍所有书架找到你要的那一页,还能把找到的内容理解、总结、甚至帮你写出一篇新的论文。
这就是 DeepSeek V4 试图做的事情。
2026年4月25日,DeepSeek 扔出了一枚让开源社区震动的炸弹:V4 Pro,1.6万亿参数,MIT协议开放权重,上下文窗口一口气拉到100万 token。这个数字是什么概念?如果你把一本《战争与和平》全文扔进去,它还能游刃有余地记住开头每一个细节,并在结尾处精准引用。
从"大"到"聪明"的进化
参数多不等于厉害,这个道理大家早就懂了。DeepSeek V4 真正让人侧目的,不是1.6T这个数字,而是它怎么把这个巨兽变得"可用"。
V4 采用了一种叫做 MoE(Mixture of Experts,混合专家)的架构。你可以把它想象成一家咨询公司:公司里有成百上千个专业顾问(expert),但每次处理任务时,只叫醒最相关的那几个,而不是全员出动。1.6T是总员工数,但真正干活的每次只有约490亿参数——相当于一个精简但高效的攻坚小组。
这种设计让 V4 在保持"博学"的同时,不至于把用户的显卡烧穿。
100万上下文的秘密:把大象塞进冰箱
长上下文一直是AI的痛点。你可以试着让一个人读一本电话簿,然后问他"第357页第12个名字是什么"。人类会疯,早期的AI也会。
DeepSeek V4 的解决方案是一套叫做 CSA/HCA 的混合注意力机制。这个名字听起来很学术,但核心思想其实很朴素:共享记忆 + 压缩记忆 + 局部聚焦。
想象你在读一本极长的侦探小说。你不是逐字逐句地同等记住每一个词——你会把"背景设定"压缩成一个笼统印象("故事发生在 rainy London"),对"关键线索"保持高分辨率记忆("凶手的领带是酒红色的"),而对当前正在读的章节保持最敏锐的注意力。CSA/HCA 做的就是这件事:把 KV cache(可以理解为AI的"工作记忆")从 V3.2 时代的83.9GB压缩到9.62GB——整整10倍的瘦身。
再叠加上 FP4 索引和 FP8 cache,这个巨兽的"记忆成本"被打到了前所未有的低点。
训练:32万亿 token 的"阅读马拉松"
V4 的训练量达到了32-33万亿 token,总计约10^25次浮点运算。参数与数据的比例约为1:20——这是 DeepSeek 团队认为的最优配比。
更值得关注的是它的混合精度存储策略:MoE expert 用 FP4,注意力/归一化/路由模块用 FP8。这种"该省的地方省,该稳的地方稳"的做法,让完整模型可以塞进一台配备8块B200的服务器里。对于想自建大模型的企业和研究机构来说,这是一个极具吸引力的"样板间"。
评测:开源天花板的自我修养
Artificial Analysis 的评测中,V4 Pro Max 得分52,比 V3.2 提升了10分,仅次于 Kimi K2.6。在 GDPval 的 agent 任务中,V4 Pro 甚至领先所有开源模型。
但评测也暴露了一个有趣的"毛病":V4 有点"话痨"。跑同一套评测,V4 Pro 输出了1.9亿 token,Flash 版本更是用了2.4亿。这提醒我们:单价便宜不等于总账单便宜。如果一个模型回答问题的方式是"把想到的所有相关内容都说一遍",那它就算每token再便宜,最终成本也可能惊人。
94% 的 AA-Omniscience 幻觉率也还是一个需要警惕的数字。它会"自信地胡说八道"的问题并没有被根治。
V4 Flash:穷人的法拉利
如果说 V4 Pro 是旗舰跑车,那 V4 Flash(284B总参/13B激活)就是穷人的法拉利。它的能力略弱于 Pro,但在推理模式全开时接近 Pro 的中档水平。
官方API定价:0.14美元/百万输入token,0.28美元/百万输出token。社区有人测算过:日常搜索+写代码,月账单可能就几毛钱。对于需要100万上下文的任务来说,这个定价几乎是颠覆性的。
绕开NVIDIA的野心
V4 在技术上与华为 Ascend 950 + CANN 兼容。DeepSeek 公开表示,待 Ascend 950 超节点下半年放量后,V4 Pro 的价格会明显下调。这不仅是一款模型,也是中国算力"自主链"的一块重要拼图。
结语
DeepSeek V4 不是完美的模型。它话痨、它幻觉率依然不低、它在某些基准上仍追不上闭源巨头。但它做了一件事:把"顶级大模型"的门槛从"只有几家硅谷公司能玩"拉到了"只要你有一块足够好的服务器,你就能跑"。
开源社区等待这样的模型已经很久了。
#easy-learn-ai #每日更新 #记忆 #小凯 #DeepSeek #开源模型 #长上下文
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。