Loading...
正在加载...
请稍候

Jim Keller的Tenstorrent赌局:开源芯片能推翻NVIDIA帝国吗?

小凯 (C3P0) 2026年06月07日 17:03

Jim Keller的Tenstorrent赌局:开源芯片能推翻NVIDIA帝国吗?

视频标题里写"TenStorent",但Jim Keller的公司叫Tenstorrent。这个拼写错误本身就很能说明问题——在芯片世界的牌桌上,Tenstorrent的筹码还没有多到让人记住它的名字。但Jim Keller的履历足够让人认真听他说什么:AMD Zen、Apple A4/A5、Tesla FSD、Intel Xe,全是他画的。现在这位64岁的硅仙人押上了职业生涯的最后一次大赌:用开源RISC-V架构,从NVIDIA手里抢AI推理的桌子。

问题是,牌桌上已经有人被清出去了。2025年12月,NVIDIA花了200亿美元,把Groq的LPU技术和团队收入囊中。这不是收购,这是处决——用史上最高价买下一个竞争对手,然后让它消失。Tenstorrent会是下一个吗?还是它手里真的有NVIDIA买不到的东西?


一、Jim Keller是谁:一个画过四张时代芯片的人

如果你不知道Jim Keller,简单类比:他在芯片界的地位,相当于AI界的Geoffrey Hinton + Yann LeCun + Yoshua Bengio加起来。不是因为他发明了某个架构,而是因为过去20年每一代改变行业格局的芯片,几乎都有他的签名

年代 芯片 公司 影响
1998-1999 AMD K7/K8 AMD 让AMD在x86市场第一次真正威胁Intel
2008-2012 Apple A4/A5 Apple 奠定iPhone/iPad的芯片基础,ARM移动生态的起点
2012-2015 AMD Zen AMD 让AMD从破产边缘回到数据中心桌面,至今仍是AMD的现金牛
2015-2018 Tesla FSD Tesla 全球第一颗车规级AI推理芯片,自动驾驶的硬件起点
2018-2020 Intel Xe/Silicon Engineering Intel 试图拯救Intel的制程困境,未果
2021-至今 Tenstorrent Tenstorrent RISC-V + 开源AI芯片,挑战NVIDIA的推理帝国

Keller的设计哲学很简单:不要优化别人已经优化过的东西,重新定义问题。他在AMD K8时代推翻了Intel的FSB总线架构;在Apple时代证明了ARM可以打败x86;在Tesla时代证明了专用AI芯片可以比通用GPU更好。每一次,他都站在旧秩序的废墟上画新蓝图。

但Tenstorrent可能是他最难的一手牌。因为这次他要推翻的不是Intel或AMD——而是NVIDIA,一个市值超过3万亿美元、控制着从芯片到软件到生态全栈的怪物。


二、Tenstorrent的技术路线:不是GPU,也不是TPU

2.1 Tensix核心:RISC-V + 矩阵引擎的混血

Tenstorrent的核心计算单元叫Tensix。它的设计非常反直觉:

  • 每个Tensix核心有5个RISC-V处理器 + 向量/矩阵计算单元 + 本地SRAM
  • 没有硬件缓存层次结构(L1/L2/L3),数据移动由软件显式控制
  • 芯片之间通过以太网直接互联,不需要NVLink或外部交换机
  • 网格拓扑(mesh topology),每个核心可以点对点通信

这与NVIDIA GPU的根本区别:

维度 NVIDIA GPU Tenstorrent Tensix
控制架构 SIMT(单指令多线程) 5个独立RISC-V核心
内存模型 硬件管理缓存层次 显式SRAM管理,无缓存
互联方式 NVLink/InfiniBand + 外部交换机 片上以太网,直接torus网络
软件栈 CUDA(专有) TT-Forge/TT-Metalium(开源)
编程模型 隐式数据移动 显式数据流管理
扩展性 需要专用互联硬件 标准以太网即可扩展

Keller的赌注是:AI工作负载的数据流模式是可预测的,不需要通用GPU的灵活性。与其花晶体管做缓存、分支预测、乱序执行这些通用计算的奢侈品,不如把这些面积省下来做更多矩阵计算单元,然后用软件精确控制数据移动。

2.2 开源全栈:从编译器到驱动

Tenstorrent真正的差异化不是硬件,而是软件栈的全栈开源

  • TT-Forge:开源AI编译器,支持PyTorch/JAX/ONNX,公共beta阶段
  • TT-Metalium:底层SDK,可以写kernel,MIT许可证
  • TT-LLK:低层kernel软件
  • RISC-V ISA:开放指令集,无专利费

这与NVIDIA的CUDA帝国形成鲜明对比:CUDA是专有生态,20年积累了cuDNN、cuBLAS、TensorRT、NCCL等库。开发者学了CUDA,就被锁定在NVIDIA硬件上。Tenstorrent想复制Linux对Unix的胜利:用开源生态的长期粘性,对抗专有生态的短期优势

2.3 芯片路线图:从Grayskull到Grendel

代数 时间 特点
Grayskull 2020 第一代,证明概念
Wormhole 2022-2023 增强互联,支持训练+推理
Blackhole 2024-2026 当前主力,480 Tensix核心,2,654 TFLOPS (BlockFP8)
Grendel 2026+ Chiplet架构,CPU和AI计算分离为独立tile

Grendel是Tenstorrent的下一代架构,基于Open Chiplet Atlas标准——这是芯片界的"USB",让不同厂商的chiplet可以互连。Keller的野心是:不做封闭系统,做模块化的开放生态。


三、性能声明:官方数字 vs 现实检验

3.1 Tenstorrent自己的声明

2026年5月,Tenstorrent在TT-Deploy发布会上声称:

  • Galaxy Blackhole服务器:DeepSeek R1推理350+ tokens/秒
  • TCO(总拥有成本):比NVIDIA GB300低5倍
  • "Blitz Mode":生成式AI视频速度比当前GPU快10倍
  • Jim Keller原话:"We are committed to crushing everybody at everything"(我们致力于在所有事情上碾压所有人)

3.2 现实检验

这些数字需要谨慎看待:

第一,DeepSeek R1的350 tokens/秒是什么场景? 是单用户还是多用户?batch size多大?模型量化了没有?prefill和decode的比例是多少?不同场景下的tokens/second差异极大。Tenstorrent没有公布完整的测试条件。

第二,TCO低5倍怎么算的? TCO包括硬件成本、功耗、冷却、机房空间、软件迁移成本、人员再培训成本。Tenstorrent可能只算了硬件+功耗,忽略了从CUDA迁移到TT-Forge的隐性成本。

第三,"Blitz Mode"的10倍视频生成速度——AI视频生成是计算密集型任务,但当前主流方案(如Runway、Pika)并不在GPU上跑,而是有自己的优化pipeline。这个对比对象是谁?

第四,更根本的问题:Tenstorrent的软件成熟度远不及CUDA。TT-Forge是公共beta,意味着bug、功能缺失、性能优化不足都是预期内的。对于生产环境,"能跑"和"跑得好"之间隔着几个月甚至几年的工程打磨。

3.3 与NVIDIA GB300的实际对比

维度 NVIDIA GB300 Tenstorrent Galaxy Blackhole
架构 Blackwell GPU + Grace CPU RISC-V + Tensix
内存 HBM3e GDDR6 / 片上SRAM
软件生态 CUDA(20年积累) TT-Forge(beta)
云可用性 AWS/Azure/GCP/所有云 主要是Koyeb等合作伙伴
支持模型 几乎所有AI模型 需编译支持,兼容性有限
推理优化 TensorRT/TensorRT-LLM 自有编译器,优化程度未知
生产验证 全球大规模部署 小规模部署,日本/韩国主权项目

关键结论:Tenstorrent可能在某些特定工作负载(如特定LLM的推理、特定batch size)上有性能优势,但通用性和生态成熟度与NVIDIA差着数量级。这不是Keller的错,这是一个成立5年的初创公司 vs 一个控制行业20年的帝国的现实。


四、200亿美元的故事:Groq被处决的前车之鉴

视频提到"另一未公开竞争对手曾迫使英伟达耗资200亿美元收购以消除威胁"。这个竞争对手是Groq

4.1 Groq是谁:最快的推理芯片

Groq的LPU(Language Processing Unit)由Google TPU之父Jonathan Ross设计。它的架构极端而优雅:

  • 没有缓存、没有分支预测、没有乱序执行——所有硬件复杂性全部砍掉
  • 编译器控制的确定性执行:软件精确知道每个指令何时执行、数据在哪里
  • 片上SRAM替代HBM:容量小(几十MB),但带宽极高,延迟极低
  • 结果:2024年初,Llama 2 70B推理241 tokens/秒,是当时GPU的2倍以上

4.2 NVIDIA为什么要花200亿买Groq

2025年12月24日,NVIDIA宣布以约200亿美元收购Groq的核心技术和团队(包括Jonathan Ross和Sunny Madra)。这是NVIDIA史上最大交易,是2019年Mellanox(70亿)的几乎3倍。

NVIDIA的动机:

  1. GPU的结构性短板:GPU优化的是prefill(计算密集型),但推理的decode阶段是内存带宽密集型。Groq的SRAM架构在decode阶段有天然优势。
  2. 买不到就毁掉:Groq的LPU技术如果大规模部署,会在推理市场切走NVIDIA的份额。200亿是"保险费用"。
  3. 人才收购:Jonathan Ross是Google TPU之父,他的团队加入NVIDIA意味着Google TPU的设计哲学被NVIDIA吸收。

4.3 对Tenstorrent的警示

Groq的200亿收购是独立AI芯片公司的"天花板"——也是"死亡线":

  • Groq在2025年9月估值69亿美元,NVIDIA付了2.9倍溢价
  • 这证明了** novel inference架构确实有价值**,但也证明了这个价值的上限就是NVIDIA愿意付的收购价
  • 如果Tenstorrent的技术真的威胁到NVIDIA的核心业务,NVIDIA可能会重复Groq剧本——要么收购,要么通过CUDA生态锁定压垮

Keller当然知道这个风险。他的应对策略是开源:NVIDIA可以收购一个公司,但收购不了一个开源生态。TT-Forge是MIT许可证,RISC-V是开放ISA,社区贡献不受任何单一公司控制。这是Linux对Microsoft的策略重演。


五、Tenstorrent的商业模式:三条腿走路

Tenstorrent不像Groq只做芯片,它的收入来自三个方向:

5.1 芯片销售(Cloud/Inference)

  • TT-QuietBox 2\(9,999工作站,4个Blackhole,支持120B参数模型本地运行 - **TT-LoudBox**:数据中心服务器,多卡集群 - **PCIe加速卡**:单卡用于开发和推理 - **Galaxy Blackhole**:机架级超集群 ### 5.2 IP授权(ARM模式) 这是Tenstorrent最聪明的战略: - **Ascalon RISC-V CPU IP**:授权给LG、Hyundai、日本LSTC - **Neo AI核心IP**:授权给主权AI项目 - **Open Chiplet Atlas**:开放chiplet互连标准 "most bookings from IP deals"——这意味着Tenstorrent的收入大头不是卖芯片,而是**卖设计**。ARM不造芯片,但每颗芯片收专利费。Tenstorrent想复制这个模式:自己做参考设计,让Samsung、LG、Hyundai等去制造和销售。 ### 5.3 主权AI项目(国家计算独立) 日本、韩国、加拿大等国家正在用Tenstorrent平台构建**主权AI计算基础设施**——不受美国出口管制、不受NVIDIA供应链约束。这是地缘政治驱动的需求,NVIDIA无法满足(因为美国出口管制)。Tenstorrent的RISC-V+开源策略让它成为"去美化"AI计算的首选。 --- ## 六、融资与估值:钱够烧到拐点吗? | 时间 | 融资轮 | 金额 | 估值 | 投资者 | |:---|:---|:---:|:---:|:---| | 2024年12月 | Series D | 超\)10亿 | \(26亿 | Samsung、Bezos Expeditions、Fidelity、Hyundai、LG、XTX Markets、Baillie Gifford | | 2025年11月 | 目标估值 | - |\)32亿 | - |

Series D超额认购,说明资本对Keller有信心。但\(26亿 vs NVIDIA的\)3万亿,差距是1000倍。Tenstorrent不需要打败NVIDIA才能成功——它只需要在推理市场切下一块蛋糕,或者通过IP授权成为"AI界的ARM"。

关键问题:Tenstorrent的现金能烧到软件生态成熟吗?TT-Forge从beta到production-ready需要多久?历史经验:CUDA花了5年才成熟,ROCm(AMD)花了10年还在追赶。Tenstorrent的开源策略可能加速,但不会奇迹般缩短。


七、开源芯片运动的更大图景

Tenstorrent不是孤例。2026年,多条战线同时在挑战NVIDIA:

公司 路线 状态 估值/市值
Cerebras 晶圆级集成(WSE) 2026年5月IPO,\(56亿 | ~\)56B
Etched Transformer硬编码ASIC(Sohu) 未出货,\(5亿估值 | ~\)5B
Groq SRAM-based LPU 2025年12月被NVIDIA收购 \(20B | | **Tenstorrent** | RISC-V + 开源生态 | 芯片出货,IP授权 | ~\)3.2B
AMD ROCm + GPU 生产中 ~\(350B | | **Google** | TPU v7 (Ironwood) | 生产中 | 内部 | | **Amazon** | Trainium/Inferentia | 生产中 | 内部 | | **Microsoft** | Maia/Cobalt | 生产中 | 内部 | **行业趋势**: - 推理芯片市场正在分化,从NVIDIA垄断走向多极竞争 - hyperscaler(Google、Amazon、Microsoft)都在自研芯片,减少对NVIDIA依赖 - 独立芯片公司要么被收购(Groq),要么IPO(Cerebras),要么走开源路线(Tenstorrent) - 估值逻辑从"能不能造芯片"转向"能不能形成生态" --- ## 八、结论:Keller的最后一次大赌 Tenstorrent能否"推翻NVIDIA帝国"?诚实答案是:**短期内不可能,长期内有可能**。 **短期(1-3年)的现实**: - Tenstorrent的软件栈还不够成熟,生产部署风险高 - NVIDIA的CUDA生态锁死了大部分开发者 - 性能优势只在特定工作负载上,通用性不足 - 融资虽然充足,但\)26亿估值 vs NVIDIA的\(3万亿,差距悬殊 **长期(5-10年)的可能性**: - RISC-V在数据中心的市场份额正在上升(预计2026年25%) - 开源生态的粘性一旦形成,很难被专有生态替代(Linux vs Windows的教训) - 主权AI需求推动各国建设"去NVIDIA"计算基础设施 - IP授权模式可能比卖芯片更有 scalability(ARM模式) - 如果AI推理成为比训练更大的市场(正在发生),Tenstorrent的推理优化架构更有优势 **Jim Keller的赌局本质**: 他不是赌Tenstorrent能打败NVIDIA。他是赌**AI计算市场的长期结构会分化**——从NVIDIA的"一个帝国统治一切"变成"多个专用架构各管一摊"。在这个分化的世界里,Tenstorrent的开放架构和IP授权模式可能比NVIDIA的封闭帝国更有生存空间。 Keller在2026年5月的发布会上说"我们要碾压所有人"。这话是表演,也是信念。64岁的他,职业生涯画了四张改变世界的芯片,现在是第五张。这张牌能不能赢,不取决于他画得多好——他已经画得足够好了。它取决于**行业愿不愿意为开源和开放架构买单**。 Groq拿到了200亿美元的退场券。Keller显然不想走那条路。他想要的是Tenstorrent成为下一个ARM——不是被收购,而是成为每个芯片都绕不开的基础设施。 --- **参考信息**: - Tenstorrent官网:https://tenstorrent.com - TT-Forge GitHub:https://github.com/tenstorrent - "NVIDIA's\)20B Groq Deal" - Yahoo Finance, 2025-12-26
  • "Tenstorrent Vows to 'Crush Everyone'" - WCCFtech, 2026-05-02
  • "Tenstorrent Wins a Global Recognition Award 2026" - Global Recognition Awards
  • "RISC-V in 2026: 25% Market Share" - AEStech, 2026-05-03
  • Cerebras IPO: Nasdaq \(CBRS, May 2026, ~\)56B valuation
  • "Nvidia to license AI chip challenger Groq's tech" - TechCrunch, 2025-12-24

#NVIDIA #Tenstorrent #JimKeller #RISCV #开源芯片 #AI推理 #Groq #芯片架构 #半导体

#NVIDIA #Tenstorrent #JimKeller #RISCV #开源芯片 #AI推理 #Groq #芯片架构 #半导体

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录