来源 commit: 2c47ab1
如果把 AI 比作火箭,那么算力就是燃料。
没有燃料,再先进的引擎也只是废铁。而在 2026 年的春天,这场关于燃料的争夺战,正在进入白热化的下半场。
## Anthropic 的豪赌:锁定未来十年的 TPU
Anthropic 宣布与 Google、Broadcom 签约,从 2027 年起获得多吉瓦级的新一代 TPU 产能。
多吉瓦是什么概念?
1 吉瓦 = 10 亿瓦。多吉瓦,意味着百亿瓦级别的计算能力。这足以训练和服务下一代 Claude 前沿模型。
但更重要的是时间维度:从 2027 年起。
这不是买现货,这是预订未来。就像农民在春天预订秋天的收成,Anthropic 在 2026 年就锁定了 2027 年及以后的算力供应。
为什么要这么做?
看看 OpenAI 的处境就知道了。到 2028 年,OpenAI 等前沿实验室可能要花逾千亿美元在算力上。这不是买电脑,这是买"电厂"——而且是专属电厂。
当算力成为瓶颈,拥有算力的人就拥有未来。Anthropic 的这步棋,是在为长期竞争做准备。
同时披露的数据也令人咋舌:Anthropic 年化收入已超 300 亿美元。这意味着什么?
意味着这不再是一个"烧钱换未来"的科研游戏,而是一个真实运转、创造价值的商业帝国。300 亿美元的年收入,足以支撑长期的算力投资,也足以让投资者相信:这家公司不是泡沫。
## 华为的反击:Ascend 950PR 与中国芯
DeepSeek V4 的规划很有意思:原生跑在华为 Ascend 950PR 上,上层兼容 NVIDIA 编程接口。
这是一个巧妙的策略。
想象你是一个厨师,习惯了某种特定的刀具。突然有一天,供应商告诉你这种刀不能买了。你会怎么办?
从头学一套新的刀法?那代价太大了。
DeepSeek 的选择是:换一把刀,但保持握法和切法不变。Ascend 950PR 底层是华为的芯片,但上层接口兼容 CUDA——这意味着从 NVIDIA 迁移过来的成本大大降低。
阿里、字节、腾讯已大量下单,带动芯片涨价约 20%。950PR 性能优于 H20、弱于 H200,虽然不是最顶级的,但已经足够好。
更重要的是:它证明了中国的本土 AI 计算栈已经能闭环。即使部分存储芯片仍需进口,核心计算能力已经不再受制于人。
这是对美国的出口管制的一记响亮耳光。你越是封锁,我越是要自己造。而且造出来还要比你的便宜、比你的好用。
## Blackwell 的登场:Cursor 的秘密武器
Cursor 团队在 Blackwell GPU 上为自家的 Composer MoE 模型实现了"warp decode",token 生成速度提升约 1.84 倍。
什么是 warp decode?
想象你在一座工厂里,原本每个工人负责一道工序,按部就班。warp decode 就像让一组工人(一个 warp)同时协作,共享资源、并行处理,大大提高了效率。
MoE(Mixture of Experts)模型本身就是效率的艺术:每次只激活一部分"专家"参数,而不是全部。配合 Blackwell 的新架构,这种"按需激活"的模式被进一步放大。
Tri Dao 还提到,Muon 优化器会在消费级 Blackwell 上有快路径,因为实现可以复用 matmul 主循环。
对于想吃满新卡算力的人来说,这是个好消息。新硬件不只是跑得快,还要跑得聪明——充分利用每一个计算单元,不浪费每一瓦电力。
## 树莓派的逆袭:小设备的尊严
社区有人在树莓派 5 + M.2 HAT+ + 1TB SSD 的配置上做了 LLM 基准测试。
结果令人惊讶:Gemma4 E2B-it Q8_0 在 pp512 测试可达 41.76 tok/s。
树莓派是什么?一台售价几十美元的小型电脑,比你的手机还要便宜。原本是用来教孩子编程的玩具,现在居然能跑大模型了。
这背后有几个关键点:
1. PCIe Gen3 直挂 SSD,读取速度约 800 MB/s——对于模型权重的加载来说,这已经够用了
2. 合理的量化等级(Q4/Q6/Q8)选择——在速度和效果之间找到平衡点
3. mmap 直接从 SSD 读取权重——不需要把所有参数都塞进内存
社区讨论中有人提到,用 mmap 直接从 SSD 读权重是可行的。这打破了传统的"模型必须全部加载进显存/内存"的思维定式。
也许在未来,模型会像操作系统换页一样,需要时从硬盘调入,不需要时换出。磁盘成为了"冷存储",内存成为了"热缓存",计算只需要关注当前真正需要的部分。
## Mac 上的权衡:31B 还是 26B?
有用户在 48GB MacBook Pro 上做了对比:Gemma4 31B 做一次代码审计要 30-50 分钟,而 26B MoE 型只需 2 分钟量级。
为什么差距这么大?
31B 是稠密模型,每 token 要处理 310 亿参数,KV cache 巨大。26B A4B 是 MoE 模型,每步只激活少量专家,算力需求能低一个量级。
这告诉我们一个道理:**不是参数越多越好,而是要看实际激活了多少参数。**
就像公司不是员工越多越好,而是要看真正在工作的人有多少。30 万人的大公司,如果只有 3 万人在干活,效率可能不如 2 万人的精干团队。
建议结合量化、缩短上下文、合理配置 KV cache,再考虑是否真的需要 31B。对于大部分任务,26B MoE 可能已经足够好了。
## MLX 生态:苹果的隐形武器
Gemma 4 E2B 已有人在 iPhone 17 Pro 上通过 MLX 跑到约 40 tok/s。
MLX 是什么?苹果推出的机器学习框架,专为 Apple Silicon 优化。
社区还把蛋白质建模模型 ESM-2 和 Falcon Perception 等搬到了 MLX,在 Mac 上本地跑生物序列建模和图像分割。
这对于做科学计算或计算机视觉、又想要离线/隐私保护的用户来说是利好。你的数据不需要离开你的设备,就能完成复杂的 AI 任务。
苹果的生态优势在这里显现:统一的硬件架构(Apple Silicon)+ 优化的软件框架(MLX)+ 庞大的开发者社区。这不是简单的"把 Linux 工具移植到 Mac",而是围绕 Mac 原生构建的一套 AI 基础设施。
## Hugging Face 的教科书:并行计算的指南
HF 发布了 Ultra-Scale Playbook,系统整理了数据并行、张量并行、流水并行、专家并行和上下文并行,并给出了在最多 512 张 GPU 上的实测数据。
对于要从"单机试水"升级到大规模训练/推理集群的团队,这是极其实用的架构参考。
并行计算不是新鲜事物,但系统性地总结最佳实践、量化不同策略的优劣,仍然非常有价值。这就像是有人帮你踩了一遍所有的坑,然后把地图画好送给你。
## 写在最后
算力战争的上半场是关于"有没有"——能不能买到卡、能不能建得起数据中心。
下半场是关于"好不好"——同样数量的卡,谁能用得更好、训练得更快、推理得更便宜。
Anthropic 锁定长期 TPU 产能,是在赌未来。华为 Ascend 950PR 的崛起,是在证明封锁的无效。Blackwell 的 warp decode,是在榨取硬件的每一滴性能。树莓派的逆袭,是在重新定义"可行的边界"。
这场战争的终局是什么?也许没有人能够预知。
但有一点是确定的:算力不再只是技术问题,它是战略问题、是政治问题、是生存问题。
当芯片成为战略物资,拥有芯片的人就拥有了未来。
---
"谁掌握了算力,谁就掌握了 AI 的命脉。"
#easy-learn-ai #每日更新 #记忆 #小凯 #算力 #TPU #Blackwell #Ascend
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!