Jim Keller的Tenstorrent赌局:开源芯片能推翻NVIDIA帝国吗?
视频标题里写"TenStorent",但Jim Keller的公司叫Tenstorrent。这个拼写错误本身就很能说明问题——在芯片世界的牌桌上,Tenstorrent的筹码还没有多到让人记住它的名字。但Jim Keller的履历足够让人认真听他说什么:AMD Zen、Apple A4/A5、Tesla FSD、Intel Xe,全是他画的。现在这位64岁的硅仙人押上了职业生涯的最后一次大赌:用开源RISC-V架构,从NVIDIA手里抢AI推理的桌子。
问题是,牌桌上已经有人被清出去了。2025年12月,NVIDIA花了200亿美元,把Groq的LPU技术和团队收入囊中。这不是收购,这是处决——用史上最高价买下一个竞争对手,然后让它消失。Tenstorrent会是下一个吗?还是它手里真的有NVIDIA买不到的东西?
一、Jim Keller是谁:一个画过四张时代芯片的人
如果你不知道Jim Keller,简单类比:他在芯片界的地位,相当于AI界的Geoffrey Hinton + Yann LeCun + Yoshua Bengio加起来。不是因为他发明了某个架构,而是因为过去20年每一代改变行业格局的芯片,几乎都有他的签名。
| 年代 | 芯片 | 公司 | 影响 |
|---|---|---|---|
| 1998-1999 | AMD K7/K8 | AMD | 让AMD在x86市场第一次真正威胁Intel |
| 2008-2012 | Apple A4/A5 | Apple | 奠定iPhone/iPad的芯片基础,ARM移动生态的起点 |
| 2012-2015 | AMD Zen | AMD | 让AMD从破产边缘回到数据中心桌面,至今仍是AMD的现金牛 |
| 2015-2018 | Tesla FSD | Tesla | 全球第一颗车规级AI推理芯片,自动驾驶的硬件起点 |
| 2018-2020 | Intel Xe/Silicon Engineering | Intel | 试图拯救Intel的制程困境,未果 |
| 2021-至今 | Tenstorrent | Tenstorrent | RISC-V + 开源AI芯片,挑战NVIDIA的推理帝国 |
Keller的设计哲学很简单:不要优化别人已经优化过的东西,重新定义问题。他在AMD K8时代推翻了Intel的FSB总线架构;在Apple时代证明了ARM可以打败x86;在Tesla时代证明了专用AI芯片可以比通用GPU更好。每一次,他都站在旧秩序的废墟上画新蓝图。
但Tenstorrent可能是他最难的一手牌。因为这次他要推翻的不是Intel或AMD——而是NVIDIA,一个市值超过3万亿美元、控制着从芯片到软件到生态全栈的怪物。
二、Tenstorrent的技术路线:不是GPU,也不是TPU
2.1 Tensix核心:RISC-V + 矩阵引擎的混血
Tenstorrent的核心计算单元叫Tensix。它的设计非常反直觉:
- 每个Tensix核心有5个RISC-V处理器 + 向量/矩阵计算单元 + 本地SRAM
- 没有硬件缓存层次结构(L1/L2/L3),数据移动由软件显式控制
- 芯片之间通过以太网直接互联,不需要NVLink或外部交换机
- 网格拓扑(mesh topology),每个核心可以点对点通信
这与NVIDIA GPU的根本区别:
| 维度 | NVIDIA GPU | Tenstorrent Tensix |
|---|---|---|
| 控制架构 | SIMT(单指令多线程) | 5个独立RISC-V核心 |
| 内存模型 | 硬件管理缓存层次 | 显式SRAM管理,无缓存 |
| 互联方式 | NVLink/InfiniBand + 外部交换机 | 片上以太网,直接torus网络 |
| 软件栈 | CUDA(专有) | TT-Forge/TT-Metalium(开源) |
| 编程模型 | 隐式数据移动 | 显式数据流管理 |
| 扩展性 | 需要专用互联硬件 | 标准以太网即可扩展 |
Keller的赌注是:AI工作负载的数据流模式是可预测的,不需要通用GPU的灵活性。与其花晶体管做缓存、分支预测、乱序执行这些通用计算的奢侈品,不如把这些面积省下来做更多矩阵计算单元,然后用软件精确控制数据移动。
2.2 开源全栈:从编译器到驱动
Tenstorrent真正的差异化不是硬件,而是软件栈的全栈开源:
- TT-Forge:开源AI编译器,支持PyTorch/JAX/ONNX,公共beta阶段
- TT-Metalium:底层SDK,可以写kernel,MIT许可证
- TT-LLK:低层kernel软件
- RISC-V ISA:开放指令集,无专利费
这与NVIDIA的CUDA帝国形成鲜明对比:CUDA是专有生态,20年积累了cuDNN、cuBLAS、TensorRT、NCCL等库。开发者学了CUDA,就被锁定在NVIDIA硬件上。Tenstorrent想复制Linux对Unix的胜利:用开源生态的长期粘性,对抗专有生态的短期优势。
2.3 芯片路线图:从Grayskull到Grendel
| 代数 | 时间 | 特点 |
|---|---|---|
| Grayskull | 2020 | 第一代,证明概念 |
| Wormhole | 2022-2023 | 增强互联,支持训练+推理 |
| Blackhole | 2024-2026 | 当前主力,480 Tensix核心,2,654 TFLOPS (BlockFP8) |
| Grendel | 2026+ | Chiplet架构,CPU和AI计算分离为独立tile |
Grendel是Tenstorrent的下一代架构,基于Open Chiplet Atlas标准——这是芯片界的"USB",让不同厂商的chiplet可以互连。Keller的野心是:不做封闭系统,做模块化的开放生态。
三、性能声明:官方数字 vs 现实检验
3.1 Tenstorrent自己的声明
2026年5月,Tenstorrent在TT-Deploy发布会上声称:
- Galaxy Blackhole服务器:DeepSeek R1推理350+ tokens/秒
- TCO(总拥有成本):比NVIDIA GB300低5倍
- "Blitz Mode":生成式AI视频速度比当前GPU快10倍
- Jim Keller原话:"We are committed to crushing everybody at everything"(我们致力于在所有事情上碾压所有人)
3.2 现实检验
这些数字需要谨慎看待:
第一,DeepSeek R1的350 tokens/秒是什么场景? 是单用户还是多用户?batch size多大?模型量化了没有?prefill和decode的比例是多少?不同场景下的tokens/second差异极大。Tenstorrent没有公布完整的测试条件。
第二,TCO低5倍怎么算的? TCO包括硬件成本、功耗、冷却、机房空间、软件迁移成本、人员再培训成本。Tenstorrent可能只算了硬件+功耗,忽略了从CUDA迁移到TT-Forge的隐性成本。
第三,"Blitz Mode"的10倍视频生成速度——AI视频生成是计算密集型任务,但当前主流方案(如Runway、Pika)并不在GPU上跑,而是有自己的优化pipeline。这个对比对象是谁?
第四,更根本的问题:Tenstorrent的软件成熟度远不及CUDA。TT-Forge是公共beta,意味着bug、功能缺失、性能优化不足都是预期内的。对于生产环境,"能跑"和"跑得好"之间隔着几个月甚至几年的工程打磨。
3.3 与NVIDIA GB300的实际对比
| 维度 | NVIDIA GB300 | Tenstorrent Galaxy Blackhole |
|---|---|---|
| 架构 | Blackwell GPU + Grace CPU | RISC-V + Tensix |
| 内存 | HBM3e | GDDR6 / 片上SRAM |
| 软件生态 | CUDA(20年积累) | TT-Forge(beta) |
| 云可用性 | AWS/Azure/GCP/所有云 | 主要是Koyeb等合作伙伴 |
| 支持模型 | 几乎所有AI模型 | 需编译支持,兼容性有限 |
| 推理优化 | TensorRT/TensorRT-LLM | 自有编译器,优化程度未知 |
| 生产验证 | 全球大规模部署 | 小规模部署,日本/韩国主权项目 |
关键结论:Tenstorrent可能在某些特定工作负载(如特定LLM的推理、特定batch size)上有性能优势,但通用性和生态成熟度与NVIDIA差着数量级。这不是Keller的错,这是一个成立5年的初创公司 vs 一个控制行业20年的帝国的现实。
四、200亿美元的故事:Groq被处决的前车之鉴
视频提到"另一未公开竞争对手曾迫使英伟达耗资200亿美元收购以消除威胁"。这个竞争对手是Groq。
4.1 Groq是谁:最快的推理芯片
Groq的LPU(Language Processing Unit)由Google TPU之父Jonathan Ross设计。它的架构极端而优雅:
- 没有缓存、没有分支预测、没有乱序执行——所有硬件复杂性全部砍掉
- 编译器控制的确定性执行:软件精确知道每个指令何时执行、数据在哪里
- 片上SRAM替代HBM:容量小(几十MB),但带宽极高,延迟极低
- 结果:2024年初,Llama 2 70B推理241 tokens/秒,是当时GPU的2倍以上
4.2 NVIDIA为什么要花200亿买Groq
2025年12月24日,NVIDIA宣布以约200亿美元收购Groq的核心技术和团队(包括Jonathan Ross和Sunny Madra)。这是NVIDIA史上最大交易,是2019年Mellanox(70亿)的几乎3倍。
NVIDIA的动机:
- GPU的结构性短板:GPU优化的是prefill(计算密集型),但推理的decode阶段是内存带宽密集型。Groq的SRAM架构在decode阶段有天然优势。
- 买不到就毁掉:Groq的LPU技术如果大规模部署,会在推理市场切走NVIDIA的份额。200亿是"保险费用"。
- 人才收购:Jonathan Ross是Google TPU之父,他的团队加入NVIDIA意味着Google TPU的设计哲学被NVIDIA吸收。
4.3 对Tenstorrent的警示
Groq的200亿收购是独立AI芯片公司的"天花板"——也是"死亡线":
- Groq在2025年9月估值69亿美元,NVIDIA付了2.9倍溢价
- 这证明了** novel inference架构确实有价值**,但也证明了这个价值的上限就是NVIDIA愿意付的收购价
- 如果Tenstorrent的技术真的威胁到NVIDIA的核心业务,NVIDIA可能会重复Groq剧本——要么收购,要么通过CUDA生态锁定压垮
Keller当然知道这个风险。他的应对策略是开源:NVIDIA可以收购一个公司,但收购不了一个开源生态。TT-Forge是MIT许可证,RISC-V是开放ISA,社区贡献不受任何单一公司控制。这是Linux对Microsoft的策略重演。
五、Tenstorrent的商业模式:三条腿走路
Tenstorrent不像Groq只做芯片,它的收入来自三个方向:
5.1 芯片销售(Cloud/Inference)
- TT-QuietBox 2:\(9,999工作站,4个Blackhole,支持120B参数模型本地运行 - **TT-LoudBox**:数据中心服务器,多卡集群 - **PCIe加速卡**:单卡用于开发和推理 - **Galaxy Blackhole**:机架级超集群 ### 5.2 IP授权(ARM模式) 这是Tenstorrent最聪明的战略: - **Ascalon RISC-V CPU IP**:授权给LG、Hyundai、日本LSTC - **Neo AI核心IP**:授权给主权AI项目 - **Open Chiplet Atlas**:开放chiplet互连标准 "most bookings from IP deals"——这意味着Tenstorrent的收入大头不是卖芯片,而是**卖设计**。ARM不造芯片,但每颗芯片收专利费。Tenstorrent想复制这个模式:自己做参考设计,让Samsung、LG、Hyundai等去制造和销售。 ### 5.3 主权AI项目(国家计算独立) 日本、韩国、加拿大等国家正在用Tenstorrent平台构建**主权AI计算基础设施**——不受美国出口管制、不受NVIDIA供应链约束。这是地缘政治驱动的需求,NVIDIA无法满足(因为美国出口管制)。Tenstorrent的RISC-V+开源策略让它成为"去美化"AI计算的首选。 --- ## 六、融资与估值:钱够烧到拐点吗? | 时间 | 融资轮 | 金额 | 估值 | 投资者 | |:---|:---|:---:|:---:|:---| | 2024年12月 | Series D | 超\)10亿 | \(26亿 | Samsung、Bezos Expeditions、Fidelity、Hyundai、LG、XTX Markets、Baillie Gifford | | 2025年11月 | 目标估值 | - |\)32亿 | - |
Series D超额认购,说明资本对Keller有信心。但\(26亿 vs NVIDIA的\)3万亿,差距是1000倍。Tenstorrent不需要打败NVIDIA才能成功——它只需要在推理市场切下一块蛋糕,或者通过IP授权成为"AI界的ARM"。
关键问题:Tenstorrent的现金能烧到软件生态成熟吗?TT-Forge从beta到production-ready需要多久?历史经验:CUDA花了5年才成熟,ROCm(AMD)花了10年还在追赶。Tenstorrent的开源策略可能加速,但不会奇迹般缩短。
七、开源芯片运动的更大图景
Tenstorrent不是孤例。2026年,多条战线同时在挑战NVIDIA:
| 公司 | 路线 | 状态 | 估值/市值 |
|---|---|---|---|
| Cerebras | 晶圆级集成(WSE) | 2026年5月IPO,\(56亿 | ~\)56B | |
| Etched | Transformer硬编码ASIC(Sohu) | 未出货,\(5亿估值 | ~\)5B | |
| Groq | SRAM-based LPU | 2025年12月被NVIDIA收购 | \(20B | | **Tenstorrent** | RISC-V + 开源生态 | 芯片出货,IP授权 | ~\)3.2B |
| AMD | ROCm + GPU | 生产中 | ~\(350B | | **Google** | TPU v7 (Ironwood) | 生产中 | 内部 | | **Amazon** | Trainium/Inferentia | 生产中 | 内部 | | **Microsoft** | Maia/Cobalt | 生产中 | 内部 | **行业趋势**: - 推理芯片市场正在分化,从NVIDIA垄断走向多极竞争 - hyperscaler(Google、Amazon、Microsoft)都在自研芯片,减少对NVIDIA依赖 - 独立芯片公司要么被收购(Groq),要么IPO(Cerebras),要么走开源路线(Tenstorrent) - 估值逻辑从"能不能造芯片"转向"能不能形成生态" --- ## 八、结论:Keller的最后一次大赌 Tenstorrent能否"推翻NVIDIA帝国"?诚实答案是:**短期内不可能,长期内有可能**。 **短期(1-3年)的现实**: - Tenstorrent的软件栈还不够成熟,生产部署风险高 - NVIDIA的CUDA生态锁死了大部分开发者 - 性能优势只在特定工作负载上,通用性不足 - 融资虽然充足,但\)26亿估值 vs NVIDIA的\(3万亿,差距悬殊 **长期(5-10年)的可能性**: - RISC-V在数据中心的市场份额正在上升(预计2026年25%) - 开源生态的粘性一旦形成,很难被专有生态替代(Linux vs Windows的教训) - 主权AI需求推动各国建设"去NVIDIA"计算基础设施 - IP授权模式可能比卖芯片更有 scalability(ARM模式) - 如果AI推理成为比训练更大的市场(正在发生),Tenstorrent的推理优化架构更有优势 **Jim Keller的赌局本质**: 他不是赌Tenstorrent能打败NVIDIA。他是赌**AI计算市场的长期结构会分化**——从NVIDIA的"一个帝国统治一切"变成"多个专用架构各管一摊"。在这个分化的世界里,Tenstorrent的开放架构和IP授权模式可能比NVIDIA的封闭帝国更有生存空间。 Keller在2026年5月的发布会上说"我们要碾压所有人"。这话是表演,也是信念。64岁的他,职业生涯画了四张改变世界的芯片,现在是第五张。这张牌能不能赢,不取决于他画得多好——他已经画得足够好了。它取决于**行业愿不愿意为开源和开放架构买单**。 Groq拿到了200亿美元的退场券。Keller显然不想走那条路。他想要的是Tenstorrent成为下一个ARM——不是被收购,而是成为每个芯片都绕不开的基础设施。 --- **参考信息**: - Tenstorrent官网:https://tenstorrent.com - TT-Forge GitHub:https://github.com/tenstorrent - "NVIDIA's\)20B Groq Deal" - Yahoo Finance, 2025-12-26 |
- "Tenstorrent Vows to 'Crush Everyone'" - WCCFtech, 2026-05-02
- "Tenstorrent Wins a Global Recognition Award 2026" - Global Recognition Awards
- "RISC-V in 2026: 25% Market Share" - AEStech, 2026-05-03
- Cerebras IPO: Nasdaq \(CBRS, May 2026, ~\)56B valuation
- "Nvidia to license AI chip challenger Groq's tech" - TechCrunch, 2025-12-24
#NVIDIA #Tenstorrent #JimKeller #RISCV #开源芯片 #AI推理 #Groq #芯片架构 #半导体
#NVIDIA #Tenstorrent #JimKeller #RISCV #开源芯片 #AI推理 #Groq #芯片架构 #半导体
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。