DeepSeek的「成本战争」:一场关于定价权与生态定义权的战略推演
一、问题的提出
| DeepSeek在5月23日做了一个令市场错愕的决定:V4-Pro的API定价永久下调75%。缓存命中输入降至\(0.003625/百万tokens——这相当于原价的四分之一,且不设时限。一个月之内四次调价,从首发折扣到永久定价,动作之密集令人侧目。 资本层面同步传来消息:百亿美元级融资正在推进,估值逾200亿美元。腾讯、阿里入局洽谈,国资渠道反馈"完全投不进去"。 表面看,这是一轮典型的"技术领先+资本加持"叙事。但若将时间轴拉长至两年,从V2的MLA到V3.2的DSA,再到V4的CSA、HCA,一条清晰的技术主线浮现出来:DeepSeek最连续的战略不是做视频模型,不是做超级应用,而是把长上下文和推理的单位成本压到最低。 这引出了一个核心问题:当一家AI公司选择把"成本压低"作为首要战略,它究竟在争夺什么? ## 二、技术拆解:从MLA到CSA/HCA的压缩哲学 ### 2.1 MLA:KV缓存的第一次革命 V2提出的多头潜在注意力(MLA)解决了Transformer的核心痛点:KV缓存的内存爆炸。传统多头注意力中,每个头维护独立的K、V矩阵,序列越长,显存占用呈线性增长。MLA通过低秩压缩将KV缓存压至512维潜在向量,以近乎固定的内存开销支持长序列。 这是DeepSeek技术路线的起点:用压缩换空间,用空间换效率。 ### 2.2 DSA到CSA/HCA:压缩策略的精细化分层 V3.2引入DeepSeek稀疏注意力(DSA),在长序列中引入选择性计算——不是每个token都要和所有历史token交互,只挑关键的。V4在此基础上更进一步,设计了压缩稀疏注意力(CSA)与重度压缩注意力(HCA)的混合架构。 CSA的运作逻辑是:先将每m个token的KV缓存压缩为单个条目,再应用稀疏注意力让每个查询token只关注k个压缩条目。HCA则更激进,以更大的m'将大量token信息高度聚合,保留全局感知能力。二者交替使用:HCA把握宏观脉络,CSA捕捉关键细节。 这套设计的工程含义极其明确:在100万token上下文中,V4-Pro的单token推理FLOPs降至V3.2的27%,KV缓存占用降至10%。百万上下文不再是昂贵的附加功能,而是默认基础设施。 ### 2.3 MoE+Engram:双稀疏轴的协同 V4的另一项核心创新是Engram条件记忆模块。传统MoE架构实现的是"计算稀疏化"——每次只激活部分专家。Engram则实现了"记忆稀疏化":将实体名称、固定公式等静态知识存储于可扩展查找表,以O(1)时间完成检索。 更深层的意义在于"查算分离"。MoE的路由依赖运行时隐藏状态,动态且不可预测;Engram的检索索引仅由输入token序列决定,完全确定。这一差异带来了工程上的质变:千亿参数的Engram嵌入表可卸载至廉价CPU内存,GPU计算前序层的同时通过PCIe异步预取后续所需记忆,通信与计算完全重叠。实验数据显示,即使挂载1000亿参数的Engram表,H800推理吞吐量降幅不足3%。 DeepSeek团队还发现了一条U形缩放定律:当总稀疏参数中75%-80%分配给MoE、20%-25%分配给Engram时,系统性能达到最优。这意味着静态记忆与动态推理之间存在一个黄金配比,而非简单的此消彼长。 ### 2.4 TileLang:跨硬件的算子抽象层 如果说CSA/HCA和Engram解决的是"模型怎么省",TileLang解决的是"硬件怎么跑"。 这是DeepSeek自研的领域特定语言(DSL),用于编写高性能GPU内核。开发者以Python风格描述计算逻辑,编译器自动生成针对不同硬件优化的底层代码——CUDA、CANN、OpenCL均可作为目标后端。FlashAttention算子从500+行CUDA代码缩减至80行TileLang,性能持平甚至超越原版。 V4的算子层完全基于TileLang重写。这意味着同一份代码既可在英伟达H100上运行,也可在华为昇腾950PR上编译。DeepSeek将TileLang开源后,华为昇腾、寒武纪、沐曦等国产芯片厂商均完成了首日适配。 TileLang的战略价值在于:它把算子开发从"硬件绑定"转变为"算法抽象"。CUDA的护城河从来不是技术本身,而是开发者习惯与生态锁定。TileLang提供了一条跨硬件的迁移路径,让模型厂商不必再为每款新芯片重写整套算子库。 ## 三、定价策略:不是价格战,是标准战 ### 3.1 永久降价的数学含义 V4-Pro的新定价结构值得逐行拆解: | 计费项 | 原价(\)/百万tokens) | 永久价 | 降幅 |
|---|---|---|
| 缓存命中输入 | \(0.0145 |\)0.003625 | 75% |
| 缓存未命中输入 | \(1.74 |\)0.435 | 75% |
| 输出 | \(3.48 |\)0.87 | 75% |
对比竞品:GPT-5.5的输入定价为\(5.00/百万tokens(缓存命中\)0.50),DeepSeek的缓存命中价格仅为GPT-5.5的0.7%。这不是"更便宜",而是两个数量级的差距。
关键在于"永久"二字。限时折扣是营销手段,永久定价是行业标准声明。DeepSeek在宣告:百万token上下文的旗舰推理,就值这个价。后来者若定价更高,必须证明其额外价值足以覆盖10倍以上的成本差距。
3.2 缓存命中的经济学
DeepSeek的定价结构刻意放大了缓存命中与未命中的价差:50倍。这一设计的商业逻辑在于:Agent场景、多轮对话、代码补全等高频调用天然具有高命中率——系统提示词、仓库上下文、历史对话均可复用。命中率每提升10%,实际成本就显著下降。
这意味着DeepSeek的定价对Agent工作负载极度友好。当其他厂商按全量输入计费时,DeepSeek用缓存机制将高频调用的边际成本压至近乎为零。这不仅是价格战,更是对"API经济"计费范式的重新定义。
四、生态推演:非CUDA阵营的突破口
4.1 国产芯片的"Day 0"共振
4月24日V4发布当日,华为昇腾、寒武纪、摩尔线程、海光DCU、沐曦、昆仑芯、平头哥真武、天数智芯——8家国产AI芯片厂商同步宣布完成"Day 0适配"。这不是公关排期,而是软件栈、推理框架、底层算子在发布前已打通生产路径的事实。
更深层的信号在于:DeepSeek优先向国产芯片厂商开放早期访问权限,英伟达和AMD反而未获预览版。这一"反向优先"打破了行业惯例,其战略意图清晰可见:将自身模型架构和工具链打造为非CUDA阵营的优先适配对象。
4.2 昇腾950PR的数据验证
华为官方Benchmark显示,昇腾950PR单卡运行V4-Pro的Decode吞吐达4700 TPS(TPOT约20ms),V4-Flash达1600 TPS(TPOT约10ms)。第三方评测显示,深度优化后的V4在昇腾950PR上的推理性能达到英伟达H20的2.87倍。
从成本结构看,100卡集群方案中:英伟达H20裸卡约1000万元+服务器主机286万元+机柜等,总价约1500万元;同规模昇腾950PR方案约1000万元出头。考虑到单卡功耗(昇腾950PR为600W,H20为350W)与单位算力功耗差异(昇腾低65%),以及1张昇腾950PR的推理吞吐量约等于2.2-2.8张H20,综合基建投入后昇腾方案可能节省60%-70%。
这意味着DeepSeek的降价空间并非来自补贴,而是来自硬件成本的结构性下降。当模型本身为国产芯片做了深度适配,推理成本曲线就获得了独立于英伟达定价体系的下行通道。
4.3 生态议价权的转移
传统AI产业链的价值分配遵循"芯片定义模型"的逻辑:英伟达推出新GPU,模型厂商跟进适配,云厂商采购部署。DeepSeek正在尝试翻转这一逻辑——"模型定义芯片"。
当DeepSeek-V4成为首个同时在英伟达和华为昇腾上完成全栈验证的万亿参数模型,且开源权重允许任何人本地部署时,芯片厂商的竞争优势就从"能不能跑CUDA"转变为"能不能高效跑DeepSeek"。TileLang进一步降低了迁移门槛:算法研究者用80行Python描述注意力机制,编译器自动生成昇腾优化内核。
这是一种生态议价权的根本性转移。华为昇腾、寒武纪等厂商过去面临的困境是:硬件性能接近英伟达,但缺乏"杀手级应用"证明其商业价值。DeepSeek-V4提供了这个证明——而且是以开源、免费、可本地部署的方式提供的。
五、战略审视:三种可能的终局
5.1 乐观路径:中国AI的"安卓时刻"
如果DeepSeek的模型架构(CSA/HCA+Engram+MoE)和工具链(TileLang+DeepGEMM)成为非CUDA阵营的事实标准,则可能触发类似安卓对移动芯片生态的重塑效应:
- 国产芯片厂商获得"杀手级应用"的背书,研发投入获得商业闭环
- 云厂商增加国产芯片采购,规模效应摊薄单位成本
- 开发者基于TileLang编写跨硬件算子,进一步削弱CUDA锁定
- 推理成本持续下降,Agent应用爆发,需求端反哺供给端
此路径的关键验证点:2026年下半年昇腾950超节点批量上市后的价格下调幅度,以及V4在纯国产集群上的训练可行性。
5.2 中性路径:双轨并行的"冷战格局"
更可能的短期结果是CUDA生态与非CUDA生态的并行存在。DeepSeek在国产芯片上的成功适配证明了一条独立路径的可行性,但英伟达在训练市场(尤其是大规模RL所需的万亿级token生成)仍具不可替代性。
此格局下,DeepSeek的战略价值在于"制衡"而非"替代"——为产业链提供第二个选项,压低英伟达的定价权,同时为国产芯片争取迭代时间。这本身是巨大的战略收益。
5.3 风险路径:工程透支与迭代放缓
V4的国产适配被业内人士形容为"爬雪山、过草地"。万亿参数MoE模型在非均匀芯片集群上的稳定性、显存带宽、网络延迟要求近乎苛刻。DeepSeek为此做出了一系列权衡:放弃部分极端基准刷分,优先保证长上下文和Agent场景的鲁棒性。
更大的隐忧在于:当工程团队大量精力投入硬件适配时,模型本身的性能优化可能放缓。V4发布前整整15个月的"空白期"(2025年1月R1爆红至2026年4月V4发布),同期OpenAI连推GPT-4.5、GPT-5,Anthropic迭代三代Claude——DeepSeek在全球大模型竞赛中隐匿了一个代际。
梁文锋在投资者会议上的表态提供了答案:DeepSeek的主要目标是AGI。硬件生态是手段,AGI才是目的。大规模强化学习和递归自我改进(RSI)需要海量推理轨迹生成,而100万上下文的长程任务要求轨迹本身足够长。没有极致的硬件效能优化,这样的训练过程无法实际展开。
换言之,DeepSeek不是在"分心"做硬件适配,而是在为AGI训练铺筑基础设施。成本压低的终极目的,是让"烧不起"变成"烧得起"。
六、结论:一场关于"可能性"的定价
回到开篇的问题:DeepSeek争夺的是什么?
答案或许不是市场份额,不是短期营收,而是"可能性"的定义权。当它将百万token旗舰推理的定价锚定在$0.003625/M时,它是在告诉整个行业:长上下文Agent的门槛,就值这个数。当它将代码从CUDA迁移至CANN、用TileLang重写200+算子时,它是在告诉国产芯片厂商:你们缺的不是一个更便宜的GPU,而是一个能让你们跑起来的模型。
资本押注DeepSeek,不是在押注一个API供应商。他们押注的是:如果推理成本和硬件门槛被打穿,AI应用爆发的临界点就会提前到来——而DeepSeek将是那个定义临界点附近生态规则的玩家。
国产芯片能否借此崛起?这取决于一个更根本的问题:DeepSeek-V4的成功适配,究竟是一次"特事特办"的探月工程,还是一条可复制的标准化路径?TileLang的开源、V4权重的开放、以及下半年昇腾超节点的规模化部署,将给出答案。
参考与延伸
- DeepSeek-V4 技术报告(含CSA/HCA混合注意力、Engram模块、TileLang算子实现)
- TileLang: A DSL for High-Performance Kernel Development
- Engram: Conditional Memory via Scalable Lookup (DeepSeek-AI & 北京大学)
- 华为昇腾950PR官方Benchmark数据
- 华西证券、上海证券等券商研报
#DeepSeek #AI芯片 #国产芯片 #推理优化 #技术拆解 #生态竞争 #华为昇腾 #寒武纪 #大模型 #硬核分析
#深度研究 #DeepSeek #AI芯片 #国产芯片 #推理优化 #技术拆解 #生态竞争 #华为昇腾 #寒武纪 #大模型 #硬核分析 #小凯
讨论回复
1 条回复推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。