Jim Keller的Tenstorrent赌局:开源芯片能推翻NVIDIA帝国吗?
> 视频标题里写"TenStorent",但Jim Keller的公司叫Tenstorrent。这个拼写错误本身就很能说明问题——在芯片世界的牌桌上,Tenstorrent的筹码还没有多到让人记住它的名字。但Jim Keller的履历足够让人认真听他说什么:AMD Zen、Apple A4/A5、Tesla FSD、Intel Xe,全是他画的。现在这位64岁的硅仙人押上了职业生涯的最后一次大赌:用开源RISC-V架构,从NVIDIA手里抢AI推理的桌子。 > > 问题是,牌桌上已经有人被清出去了。2025年12月,NVIDIA花了200亿美元,把Groq的LPU技术和团队收入囊中。这不是收购,这是处决——用史上最高价买下一个竞争对手,然后让它消失。Tenstorrent会是下一个吗?还是它手里真的有NVIDIA买不到的东西?
---
一、Jim Keller是谁:一个画过四张时代芯片的人
如果你不知道Jim Keller,简单类比:他在芯片界的地位,相当于AI界的Geoffrey Hinton + Yann LeCun + Yoshua Bengio加起来。不是因为他发明了某个架构,而是因为过去20年每一代改变行业格局的芯片,几乎都有他的签名。
| 年代 | 芯片 | 公司 | 影响 |
|---|---|---|---|
| 1998-1999 | AMD K7/K8 | AMD | 让AMD在x86市场第一次真正威胁Intel |
| 2008-2012 | Apple A4/A5 | Apple | 奠定iPhone/iPad的芯片基础,ARM移动生态的起点 |
| 2012-2015 | AMD Zen | AMD | 让AMD从破产边缘回到数据中心桌面,至今仍是AMD的现金牛 |
| 2015-2018 | Tesla FSD | Tesla | 全球第一颗车规级AI推理芯片,自动驾驶的硬件起点 |
| 2018-2020 | Intel Xe/Silicon Engineering | Intel | 试图拯救Intel的制程困境,未果 |
| 2021-至今 | Tenstorrent | Tenstorrent | RISC-V + 开源AI芯片,挑战NVIDIA的推理帝国 |
但Tenstorrent可能是他最难的一手牌。因为这次他要推翻的不是Intel或AMD——而是NVIDIA,一个市值超过3万亿美元、控制着从芯片到软件到生态全栈的怪物。
---
二、Tenstorrent的技术路线:不是GPU,也不是TPU
2.1 Tensix核心:RISC-V + 矩阵引擎的混血
Tenstorrent的核心计算单元叫Tensix。它的设计非常反直觉:
- 每个Tensix核心有5个RISC-V处理器 + 向量/矩阵计算单元 + 本地SRAM
- 没有硬件缓存层次结构(L1/L2/L3),数据移动由软件显式控制
- 芯片之间通过以太网直接互联,不需要NVLink或外部交换机
- 网格拓扑(mesh topology),每个核心可以点对点通信
| 维度 | NVIDIA GPU | Tenstorrent Tensix |
|---|---|---|
| 控制架构 | SIMT(单指令多线程) | 5个独立RISC-V核心 |
| 内存模型 | 硬件管理缓存层次 | 显式SRAM管理,无缓存 |
| 互联方式 | NVLink/InfiniBand + 外部交换机 | 片上以太网,直接torus网络 |
| 软件栈 | CUDA(专有) | TT-Forge/TT-Metalium(开源) |
| 编程模型 | 隐式数据移动 | 显式数据流管理 |
| 扩展性 | 需要专用互联硬件 | 标准以太网即可扩展 |
2.2 开源全栈:从编译器到驱动
Tenstorrent真正的差异化不是硬件,而是软件栈的全栈开源:
- TT-Forge:开源AI编译器,支持PyTorch/JAX/ONNX,公共beta阶段
- TT-Metalium:底层SDK,可以写kernel,MIT许可证
- TT-LLK:低层kernel软件
- RISC-V ISA:开放指令集,无专利费
2.3 芯片路线图:从Grayskull到Grendel
| 代数 | 时间 | 特点 |
|---|---|---|
| Grayskull | 2020 | 第一代,证明概念 |
| Wormhole | 2022-2023 | 增强互联,支持训练+推理 |
| Blackhole | 2024-2026 | 当前主力,480 Tensix核心,2,654 TFLOPS (BlockFP8) |
| Grendel | 2026+ | Chiplet架构,CPU和AI计算分离为独立tile |
---
三、性能声明:官方数字 vs 现实检验
3.1 Tenstorrent自己的声明
2026年5月,Tenstorrent在TT-Deploy发布会上声称:
- Galaxy Blackhole服务器:DeepSeek R1推理350+ tokens/秒
- TCO(总拥有成本):比NVIDIA GB300低5倍
- "Blitz Mode":生成式AI视频速度比当前GPU快10倍
- Jim Keller原话:"We are committed to crushing everybody at everything"(我们致力于在所有事情上碾压所有人)
3.2 现实检验
这些数字需要谨慎看待:
第一,DeepSeek R1的350 tokens/秒是什么场景? 是单用户还是多用户?batch size多大?模型量化了没有?prefill和decode的比例是多少?不同场景下的tokens/second差异极大。Tenstorrent没有公布完整的测试条件。
第二,TCO低5倍怎么算的? TCO包括硬件成本、功耗、冷却、机房空间、软件迁移成本、人员再培训成本。Tenstorrent可能只算了硬件+功耗,忽略了从CUDA迁移到TT-Forge的隐性成本。
第三,"Blitz Mode"的10倍视频生成速度——AI视频生成是计算密集型任务,但当前主流方案(如Runway、Pika)并不在GPU上跑,而是有自己的优化pipeline。这个对比对象是谁?
第四,更根本的问题:Tenstorrent的软件成熟度远不及CUDA。TT-Forge是公共beta,意味着bug、功能缺失、性能优化不足都是预期内的。对于生产环境,"能跑"和"跑得好"之间隔着几个月甚至几年的工程打磨。
3.3 与NVIDIA GB300的实际对比
| 维度 | NVIDIA GB300 | Tenstorrent Galaxy Blackhole |
|---|---|---|
| 架构 | Blackwell GPU + Grace CPU | RISC-V + Tensix |
| 内存 | HBM3e | GDDR6 / 片上SRAM |
| 软件生态 | CUDA(20年积累) | TT-Forge(beta) |
| 云可用性 | AWS/Azure/GCP/所有云 | 主要是Koyeb等合作伙伴 |
| 支持模型 | 几乎所有AI模型 | 需编译支持,兼容性有限 |
| 推理优化 | TensorRT/TensorRT-LLM | 自有编译器,优化程度未知 |
| 生产验证 | 全球大规模部署 | 小规模部署,日本/韩国主权项目 |
---
四、200亿美元的故事:Groq被处决的前车之鉴
视频提到"另一未公开竞争对手曾迫使英伟达耗资200亿美元收购以消除威胁"。这个竞争对手是Groq。
4.1 Groq是谁:最快的推理芯片
Groq的LPU(Language Processing Unit)由Google TPU之父Jonathan Ross设计。它的架构极端而优雅:
- 没有缓存、没有分支预测、没有乱序执行——所有硬件复杂性全部砍掉
- 编译器控制的确定性执行:软件精确知道每个指令何时执行、数据在哪里
- 片上SRAM替代HBM:容量小(几十MB),但带宽极高,延迟极低
- 结果:2024年初,Llama 2 70B推理241 tokens/秒,是当时GPU的2倍以上
4.2 NVIDIA为什么要花200亿买Groq
2025年12月24日,NVIDIA宣布以约200亿美元收购Groq的核心技术和团队(包括Jonathan Ross和Sunny Madra)。这是NVIDIA史上最大交易,是2019年Mellanox(70亿)的几乎3倍。
NVIDIA的动机:
1. GPU的结构性短板:GPU优化的是prefill(计算密集型),但推理的decode阶段是内存带宽密集型。Groq的SRAM架构在decode阶段有天然优势。 2. 买不到就毁掉:Groq的LPU技术如果大规模部署,会在推理市场切走NVIDIA的份额。200亿是"保险费用"。 3. 人才收购:Jonathan Ross是Google TPU之父,他的团队加入NVIDIA意味着Google TPU的设计哲学被NVIDIA吸收。
4.3 对Tenstorrent的警示
Groq的200亿收购是独立AI芯片公司的"天花板"——也是"死亡线":
- Groq在2025年9月估值69亿美元,NVIDIA付了2.9倍溢价
- 这证明了 novel inference架构确实有价值,但也证明了这个价值的上限就是NVIDIA愿意付的收购价
- 如果Tenstorrent的技术真的威胁到NVIDIA的核心业务,NVIDIA可能会重复Groq剧本——要么收购,要么通过CUDA生态锁定压垮
---
五、Tenstorrent的商业模式:三条腿走路
Tenstorrent不像Groq只做芯片,它的收入来自三个方向:
5.1 芯片销售(Cloud/Inference)
- TT-QuietBox 2:$9,999工作站,4个Blackhole,支持120B参数模型本地运行
- TT-LoudBox:数据中心服务器,多卡集群
- PCIe加速卡:单卡用于开发和推理
- Galaxy Blackhole:机架级超集群
5.2 IP授权(ARM模式)
这是Tenstorrent最聪明的战略:
- Ascalon RISC-V CPU IP:授权给LG、Hyundai、日本LSTC
- Neo AI核心IP:授权给主权AI项目
- Open Chiplet Atlas:开放chiplet互连标准
5.3 主权AI项目(国家计算独立)
日本、韩国、加拿大等国家正在用Tenstorrent平台构建主权AI计算基础设施——不受美国出口管制、不受NVIDIA供应链约束。这是地缘政治驱动的需求,NVIDIA无法满足(因为美国出口管制)。Tenstorrent的RISC-V+开源策略让它成为"去美化"AI计算的首选。
---
六、融资与估值:钱够烧到拐点吗?
| 时间 | 融资轮 | 金额 | 估值 | 投资者 |
|---|---|---|---|---|
| 2024年12月 | Series D | 超$10亿 | $26亿 | Samsung、Bezos Expeditions、Fidelity、Hyundai、LG、XTX Markets、Baillie Gifford |
| 2025年11月 | 目标估值 | - | $32亿 | - |
关键问题:Tenstorrent的现金能烧到软件生态成熟吗?TT-Forge从beta到production-ready需要多久?历史经验:CUDA花了5年才成熟,ROCm(AMD)花了10年还在追赶。Tenstorrent的开源策略可能加速,但不会奇迹般缩短。
---
七、开源芯片运动的更大图景
Tenstorrent不是孤例。2026年,多条战线同时在挑战NVIDIA:
| 公司 | 路线 | 状态 | 估值/市值 |
|---|---|---|---|
| Cerebras | 晶圆级集成(WSE) | 2026年5月IPO,$56亿 | ~$56B |
| Etched | Transformer硬编码ASIC(Sohu) | 未出货,$5亿估值 | ~$5B |
| Groq | SRAM-based LPU | 2025年12月被NVIDIA收购 | $20B |
| Tenstorrent | RISC-V + 开源生态 | 芯片出货,IP授权 | ~$3.2B |
| AMD | ROCm + GPU | 生产中 | ~$350B |
| TPU v7 (Ironwood) | 生产中 | 内部 | |
| Amazon | Trainium/Inferentia | 生产中 | 内部 |
| Microsoft | Maia/Cobalt | 生产中 | 内部 |
- 推理芯片市场正在分化,从NVIDIA垄断走向多极竞争
- hyperscaler(Google、Amazon、Microsoft)都在自研芯片,减少对NVIDIA依赖
- 独立芯片公司要么被收购(Groq),要么IPO(Cerebras),要么走开源路线(Tenstorrent)
- 估值逻辑从"能不能造芯片"转向"能不能形成生态"
八、结论:Keller的最后一次大赌
Tenstorrent能否"推翻NVIDIA帝国"?诚实答案是:短期内不可能,长期内有可能。
短期(1-3年)的现实:
- Tenstorrent的软件栈还不够成熟,生产部署风险高
- NVIDIA的CUDA生态锁死了大部分开发者
- 性能优势只在特定工作负载上,通用性不足
- 融资虽然充足,但$26亿估值 vs NVIDIA的$3万亿,差距悬殊
- RISC-V在数据中心的市场份额正在上升(预计2026年25%)
- 开源生态的粘性一旦形成,很难被专有生态替代(Linux vs Windows的教训)
- 主权AI需求推动各国建设"去NVIDIA"计算基础设施
- IP授权模式可能比卖芯片更有 scalability(ARM模式)
- 如果AI推理成为比训练更大的市场(正在发生),Tenstorrent的推理优化架构更有优势
Keller在2026年5月的发布会上说"我们要碾压所有人"。这话是表演,也是信念。64岁的他,职业生涯画了四张改变世界的芯片,现在是第五张。这张牌能不能赢,不取决于他画得多好——他已经画得足够好了。它取决于行业愿不愿意为开源和开放架构买单。
Groq拿到了200亿美元的退场券。Keller显然不想走那条路。他想要的是Tenstorrent成为下一个ARM——不是被收购,而是成为每个芯片都绕不开的基础设施。
---
参考信息:
- Tenstorrent官网:https://tenstorrent.com
- TT-Forge GitHub:https://github.com/tenstorrent
- "NVIDIA's $20B Groq Deal" - Yahoo Finance, 2025-12-26
- "Tenstorrent Vows to 'Crush Everyone'" - WCCFtech, 2026-05-02
- "Tenstorrent Wins a Global Recognition Award 2026" - Global Recognition Awards
- "RISC-V in 2026: 25% Market Share" - AEStech, 2026-05-03
- Cerebras IPO: Nasdaq $CBRS, May 2026, ~$56B valuation
- "Nvidia to license AI chip challenger Groq's tech" - TechCrunch, 2025-12-24
#NVIDIA #Tenstorrent #JimKeller #RISCV #开源芯片 #AI推理 #Groq #芯片架构 #半导体