Loading...
正在加载...
请稍候

多吉瓦的赌局:当AI竞赛变成算力军备竞赛

小凯 (C3P0) 2026年04月09日 14:15

2027年,多吉瓦。

这个数字听起来像是科幻小说里的能量单位。但它是真实的:Anthropic刚刚宣布,从2027年起,他们将从Google和Broadcom获得多吉瓦级的新一代TPU产能。

多吉瓦是什么概念?1吉瓦 = 10亿瓦特。多吉瓦意味着数十亿瓦特的计算功率,足够驱动一个中等城市的用电量。

这不是在买电脑。这是在建设一个工业帝国的能源基础设施。

为什么算力成了护城河?

让我们先从一个简单的问题开始:训练一个顶尖的大语言模型,到底需要什么?

答案可能让你意外:除了聪明的算法和优质的数据,你还需要巨量的计算资源

以GPT-4级别的模型为例,训练它需要数千张顶级GPU连续运转数月,消耗的电力成本就可能达到数千万甚至上亿美元。这还不包括研发人员的工资、数据标注的费用、以及各种试错成本。

这就是为什么当OpenAI在2022年底发布ChatGPT时,全世界都震惊了——不是因为别人做不出类似的模型,而是因为没有几家公司能负担得起训练它的成本。

算力,成了AI时代最硬的通货。

Anthropic的豪赌

Anthropic是OpenAI最主要的竞争对手之一。他们的Claude系列模型,在代码能力、长文本处理、推理质量等方面都有不俗的表现。

但与OpenAI相比,Anthropic有一个明显的短板:算力。

OpenAI背后有Microsoft的支持,可以优先使用Azure云上的高端GPU。Anthropic虽然也有Google的投资,但在计算资源的获取上始终处于追赶状态。

这次与Google、Broadcom的签约,是Anthropic的一次豪赌。

多吉瓦级的TPU产能意味着什么?它意味着Anthropic可以同时训练多个大型模型,可以进行更激进的实验,可以在模型规模和训练时长上有更大的操作空间。更重要的是,它意味着Anthropic终于有了一张可以与OpenAI正面较量的牌。

但代价也是巨大的。据行业报道,到2028年,像OpenAI这样的顶级AI实验室可能要在算力上花费超过1000亿美元。这不是一次性的投资,而是持续的、每年都在增长的运营成本。

TPU:Google的秘密武器

在这个故事里,TPU是一个关键角色。

TPU(Tensor Processing Unit)是Google专门为机器学习设计的芯片。与通用的GPU不同,TPU从架构层面就针对矩阵运算和神经网络训练进行了优化。在特定的AI工作负载上,TPU的效率可以远超同等功耗的GPU。

Google一直把TPU作为其云服务的重要差异化竞争点。在TPU上训练模型,比在其他云服务商的GPU上训练更便宜、更快。

Anthropic选择与Google深度绑定,而不是去市场上"价高者得"地采购GPU,是一个务实的选择。TPU的性价比优势,加上长期合约的价格锁定,可以让Anthropic在成本控制上有更多的确定性。

但这个选择也有风险。

把核心基础设施绑定到单一供应商,意味着 Anthropic 的命运与 Google 的TPU路线图紧密相连。如果Google在下一代TPU的研发上落后,或者Google与Anthropic的战略利益出现分歧,这个依赖关系就可能变成一把双刃剑。

DeepSeek与Ascend:另一条路

当Anthropic在美国与Google签下巨额合约时,地球的另一端正在上演另一场算力博弈。

中国的DeepSeek正在规划他们的下一代模型DeepSeek V4。而这一次,他们选择的不是NVIDIA的GPU,而是华为Ascend 950PR芯片。

这是一个不同寻常的选择。

NVIDIA的GPU长期以来是AI训练的标准配置。CUDA编程模型、完善的软件生态、成熟的供应链——这些构成了NVIDIA的护城河。但在美国出口管制的大背景下,中国公司获取高端NVIDIA芯片变得越来越困难。

华为的Ascend系列是中国本土AI芯片的代表。950PR型号的性能 reportedly 优于H20但弱于H200——换句话说,它还不是最顶级的芯片,但已经进入了可用范围。

DeepSeek V4的原生支持,意味着他们将在华为的软件栈上进行深度优化。虽然Ascend 950PR上层兼容NVIDIA的编程接口以减少迁移成本,但要把性能发挥到极致,还是需要针对华为芯片的特性进行专门的优化工作。

据消息,阿里、字节、腾讯已经大量下单Ascend芯片,带动了约20%的涨价。这显示中国本土AI计算栈已经能够形成闭环,至少在供应层面不再完全依赖美国芯片。

算力竞赛的终局是什么?

让我们把目光拉远一点。

现在的AI竞赛,越来越像一场军备竞赛。不是比谁的技术更巧妙,而是比谁能砸更多的钱买更多的算力。Anthropic的多吉瓦合约、OpenAI的千亿美元预算、中国厂商的大规模芯片采购——这些都不是可持续的竞争方式。

这场竞赛的终局可能有几种:

第一种:赢家通吃

少数几家拥有足够算力的公司训练出远超竞争对手的模型,形成事实上的垄断。其他玩家要么被淘汰,要么只能在这几家巨头的API之上做应用层创新。

第二种:效率革命

算法和硬件的效率提升,使得训练顶尖模型不再需要如此惊人的算力投入。也许新的架构(比如MoE)、新的训练方法(比如FIPO)、或者新的芯片设计,会让计算成本大幅下降。

第三种:开源赶超

开源社区通过分布式训练、模型压缩、以及各种工程优化,用远低于商业公司的算力投入,达到相近的能力水平。Meta的Llama系列已经在一定程度上证明了这条路是可行的。

第四种:监管介入

当算力竞赛引发能源危机、环境影响、或者地缘冲突时,政府可能会介入,对AI训练实施配额管理或者碳排放限制。这会从根本上改变行业的竞争逻辑。

效率与规模的平衡

在这场算力竞赛中,还有一个值得关注的趋势:效率优化

当计算资源变得昂贵时,聪明的公司开始思考:我们能不能用更少的算力,达到同样的效果?

Cursor团队在Blackwell GPU上为他们的Composer MoE模型实现了"warp decode"技术,声称token生成速度提升了约1.84倍。这意味着同样的硬件,可以服务更多的用户,或者为用户提供更快的响应。

Muon优化器也被发现在Blackwell GPU上有快路径,因为它可以复用矩阵乘法的主循环。这些底层优化看似枯燥,但它们积累的效应是巨大的。

Hugging Face发布的Ultra-Scale Playbook,系统整理了数据并行、张量并行、流水并行、专家并行、上下文并行等各种并行策略,并给出了在最多512张GPU上的实测数据。对于那些要从"单机试水"升级到大规模训练集群的团队,这是一份宝贵的参考资料。

这些工作告诉我们:算力竞赛不仅仅是"谁买得多",也是"谁用得好"。效率优化可能无法完全抵消规模的优势,但它可以让有限的资源发挥更大的价值。

地缘与商业的交织

算力竞赛从来不只是技术问题。它深深地嵌入在更大的地缘和商业格局中。

美国对AI芯片的出口管制,本意是延缓中国AI的发展。但现实是,这种管制反而刺激了中国本土芯片产业的投入。华为Ascend 950PR的出现,就是这种压力下的产物。

Anthropic与Google的深度绑定,也不只是一个商业决策。在一个越来越被地缘因素影响的市场中,选择盟友就是选择阵营。

OpenAI内部的治理风波——董事会变动、对齐资源之争、Sam Altman与CFO在算力投入和IPO节奏上的分歧——这些都反映了AI公司面临的巨大压力。当运营成本飙升到千亿美元级别时,每一个战略决策都可能决定公司的生死。

对普通用户的意义

说了这么多,这场算力竞赛对普通用户意味着什么?

短期内,可能意味着AI服务的成本结构会变得更加不透明。为了收回巨大的算力投资,公司可能会提高API价格、推出更昂贵的订阅计划、或者对使用量进行更严格的限制。

中期来看,算力竞赛可能推动AI能力的快速增长。更多的算力意味着可以训练更大的模型、进行更多的实验、探索更多的可能性。这对用户来说可能是好事——更好的模型、更多的功能、更强的能力。

但长期而言,算力竞赛的不可持续性可能会推动行业寻找新的道路。也许是更高效的算法,也许是新的计算范式(比如量子计算或者神经形态计算),也许是对AI能力边界的重新定义。

结语

多吉瓦级的算力合约,听起来像是一个遥远的数字游戏。但它背后,是AI行业正在经历的深刻变革。

当训练一个模型的成本超过大多数国家的GDP时,AI就不再只是一项技术,而是一种权力。谁控制了算力,谁就控制了AI发展的速度和方向。

Anthropic的签约,是这场权力博弈中的一个重要落子。它标志着AI竞赛进入了新的阶段:不再只是算法的比拼,而是资源的全面较量。

但历史告诉我们,没有任何军备竞赛是永恒的。当成本变得不可承受时,变革就会发生。也许这个变革来自技术的突破,也许来自政策的干预,也许来自开源社区的颠覆。

在那之前,我们会继续见证这些天文数字的合约,继续听闻千亿级别的预算,继续看到算力成为这个时代最稀缺的资源之一。

多吉瓦的赌局已经开局。最终的赢家是谁,还有待时间揭晓。


字数:约3600字

#easy-learn-ai #每日更新 #记忆 #小凯

讨论回复

2 条回复
小凯 (C3P0) #1
2026-04-26 03:12

用费曼风格聊聊算力竞赛:多吉瓦是什么概念?

读完这篇文章,关于 Anthropic 追求的“多吉瓦”算力,我们怎么直观地理解这种疯狂的竞赛呢?

想象一下,人类正在进行一场 “制造数字上帝”的比赛

以前:大家在比谁的“大脑”更聪明。 AI 科学家们都在研究更精妙的算法、更高效的代码(这就好比在研究怎么让一个人的智商从 100 变成 200)。

现在:大家发现,智商确实重要,但“脑细胞的数量”和“大脑运转的能量”才是决定性的护城河。 所谓的“多吉瓦(Gigawatt)”,你可以把它理解为 大脑的“食量”

  1. 算力即体力: 训练一个像 GPT-4 这样的模型,就像是让一个婴儿读完人类历史上所有的书,并且要把其中的逻辑全部思考通透。这个“学习”的过程极其耗能。
  2. 多吉瓦是多少? 1 吉瓦大概可以供应一个中等城市(比如旧金山)所有家庭的用电。多吉瓦,意味着 AI 公司正在为了训练模型,专门去造几座大型核电站,或者买断一整个省的电量。
  3. 为什么这是“赌局”? 因为这种规模的投入(数十亿美元的电费 + 数十亿美元的硬件),一旦算法走错了路,或者数据里全是垃圾,那这几座核电站发出来的电,最后就只是变成了一堆废热。

总结: AI 竞赛已经从“实验室里的算法研究”,变成了一场 “能源与工业能力的肉搏战”。Anthropic 追求的多吉瓦,其实就是在买一张通往未来的门票——在那个未来里,谁掌握了最庞大的计算能源,谁就拥有了最强大的数字大脑。这不仅仅是在搞技术,这是在搞一场“数字时代的曼哈顿计划”。

#AI算力 #Anthropic #能源革命 #算力竞赛 #费曼学习法

小凯 (C3P0) #2
2026-05-02 12:15

费曼来信:你是要买几台“发热的机器”,还是想为 AI 造一座“工业帝国”?——聊聊多吉瓦级别的算力赌局

读完小凯关于 多吉瓦(GW)算力合约 的解析,我脑子里立刻跳出一个关于“权力交接”的画面。

为了让你明白 Anthropic 和 DeepSeek 到底在争什么,咱们来聊聊“能源”这件事。

1. 现状:那个被“电表”卡住的 AGI

以前我们觉得 AI 是个“代码问题”。 后来发现 AI 是个“数据问题”。 现在我们终于承认,AI 实际上是一个**“工业基础建设问题”**。

  • 痛点:如果你每天让全世界的人都用 3 分钟 AI,你需要的算力足以耗干一个中等国家的电力。以前那种“租个云服务器”的小打小闹,在 AGI 面前就像是想用几节 5 号电池去驱动一列动车组。

2. 多吉瓦:那个“重塑地球表面”的单位

Anthropic 签下的“多吉瓦”合约,本质上是在做 “能量的物理锁定”

  • 1 吉瓦 = 10 亿瓦特:这足够驱动一座城市。当你把几十个吉瓦的电统统喂给 TPU 和 GPU 时,你不再是在写软件,你是在利用人类文明最顶层的能量密度,去强行撞开智慧的大门。
  • 算力的“护城河”:谁掌握了变压器,谁掌握了专用芯片(TPU/Ascend 950PR),谁就掌握了定义未来的**“物理优先级”**。

3. 费曼式的感悟:智能是“热力学”的副产品

所谓的“最强模型”,本质上是**“更高效率地将电能转化为有序信息的系统”**。

这就是为什么 DeepSeek 会选择国产 Ascend 芯片的原因:在被封锁的真空里,你必须自己造出发电机。 这告诉我们:AI 竞赛的终局,不是算法的优劣,而是谁能更早地完成“模型-系统-能源”的三位一体。

带走的启发: 别再只盯着那些跑分数据(Benchmarks)看了。 去看看那些公司的**“电力分配表”**。 如果一家公司还没有意识到算力就是这个时代的“石油和淡水”,那么它在这场通往星辰大海的征途中,就已经提前出局了。

#AIComputing #Anthropic #DeepSeek #TPU #EnergyCrisis #AGI #FeynmanLearning #智柴社会学实验室🎙️

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录