Jim Keller的Tenstorrent赌局：开源芯片能推翻NVIDIA帝国吗？

> 视频标题里写"TenStorent"，但Jim Keller的公司叫Tenstorrent。这个拼写错误本身就很能说明问题——在芯片世界的牌桌上，Tenstorrent的筹码还没有多到让人记住它的名字。但Jim Keller的履历足够让人认真听他说什么：AMD Zen、Apple A4/A5、Tesla FSD、Intel Xe，全是他画的。现在这位64岁的硅仙人押上了职业生涯的最后一次大赌：用开源RISC-V架构，从NVIDIA手里抢AI推理的桌子。 > > 问题是，牌桌上已经有人被清出去了。2025年12月，NVIDIA花了200亿美元，把Groq的LPU技术和团队收入囊中。这不是收购，这是处决——用史上最高价买下一个竞争对手，然后让它消失。Tenstorrent会是下一个吗？还是它手里真的有NVIDIA买不到的东西？

---

一、Jim Keller是谁：一个画过四张时代芯片的人

如果你不知道Jim Keller，简单类比：他在芯片界的地位，相当于AI界的Geoffrey Hinton + Yann LeCun + Yoshua Bengio加起来。不是因为他发明了某个架构，而是因为过去20年每一代改变行业格局的芯片，几乎都有他的签名。

年代	芯片	公司	影响
1998-1999	AMD K7/K8	AMD	让AMD在x86市场第一次真正威胁Intel
2008-2012	Apple A4/A5	Apple	奠定iPhone/iPad的芯片基础，ARM移动生态的起点
2012-2015	AMD Zen	AMD	让AMD从破产边缘回到数据中心桌面，至今仍是AMD的现金牛
2015-2018	Tesla FSD	Tesla	全球第一颗车规级AI推理芯片，自动驾驶的硬件起点
2018-2020	Intel Xe/Silicon Engineering	Intel	试图拯救Intel的制程困境，未果
2021-至今	Tenstorrent	Tenstorrent	RISC-V + 开源AI芯片，挑战NVIDIA的推理帝国

Keller的设计哲学很简单：不要优化别人已经优化过的东西，重新定义问题。他在AMD K8时代推翻了Intel的FSB总线架构；在Apple时代证明了ARM可以打败x86；在Tesla时代证明了专用AI芯片可以比通用GPU更好。每一次，他都站在旧秩序的废墟上画新蓝图。

但Tenstorrent可能是他最难的一手牌。因为这次他要推翻的不是Intel或AMD——而是NVIDIA，一个市值超过3万亿美元、控制着从芯片到软件到生态全栈的怪物。

---

二、Tenstorrent的技术路线：不是GPU，也不是TPU

2.1 Tensix核心：RISC-V + 矩阵引擎的混血

Tenstorrent的核心计算单元叫Tensix。它的设计非常反直觉：

每个Tensix核心有5个RISC-V处理器 + 向量/矩阵计算单元 + 本地SRAM
没有硬件缓存层次结构（L1/L2/L3），数据移动由软件显式控制
芯片之间通过以太网直接互联，不需要NVLink或外部交换机
网格拓扑（mesh topology），每个核心可以点对点通信

这与NVIDIA GPU的根本区别：

维度	NVIDIA GPU	Tenstorrent Tensix
控制架构	SIMT（单指令多线程）	5个独立RISC-V核心
内存模型	硬件管理缓存层次	显式SRAM管理，无缓存
互联方式	NVLink/InfiniBand + 外部交换机	片上以太网，直接torus网络
软件栈	CUDA（专有）	TT-Forge/TT-Metalium（开源）
编程模型	隐式数据移动	显式数据流管理
扩展性	需要专用互联硬件	标准以太网即可扩展

Keller的赌注是：AI工作负载的数据流模式是可预测的，不需要通用GPU的灵活性。与其花晶体管做缓存、分支预测、乱序执行这些通用计算的奢侈品，不如把这些面积省下来做更多矩阵计算单元，然后用软件精确控制数据移动。

2.2 开源全栈：从编译器到驱动

Tenstorrent真正的差异化不是硬件，而是软件栈的全栈开源：

TT-Forge：开源AI编译器，支持PyTorch/JAX/ONNX，公共beta阶段
TT-Metalium：底层SDK，可以写kernel，MIT许可证
TT-LLK：低层kernel软件
RISC-V ISA：开放指令集，无专利费

这与NVIDIA的CUDA帝国形成鲜明对比：CUDA是专有生态，20年积累了cuDNN、cuBLAS、TensorRT、NCCL等库。开发者学了CUDA，就被锁定在NVIDIA硬件上。Tenstorrent想复制Linux对Unix的胜利：用开源生态的长期粘性，对抗专有生态的短期优势。

2.3 芯片路线图：从Grayskull到Grendel

代数	时间	特点
Grayskull	2020	第一代，证明概念
Wormhole	2022-2023	增强互联，支持训练+推理
Blackhole	2024-2026	当前主力，480 Tensix核心，2,654 TFLOPS (BlockFP8)
Grendel	2026+	Chiplet架构，CPU和AI计算分离为独立tile

Grendel是Tenstorrent的下一代架构，基于Open Chiplet Atlas标准——这是芯片界的"USB"，让不同厂商的chiplet可以互连。Keller的野心是：不做封闭系统，做模块化的开放生态。

---

三、性能声明：官方数字 vs 现实检验

3.1 Tenstorrent自己的声明

2026年5月，Tenstorrent在TT-Deploy发布会上声称：

Galaxy Blackhole服务器：DeepSeek R1推理350+ tokens/秒
TCO（总拥有成本）：比NVIDIA GB300低5倍
"Blitz Mode"：生成式AI视频速度比当前GPU快10倍
Jim Keller原话："We are committed to crushing everybody at everything"（我们致力于在所有事情上碾压所有人）

3.2 现实检验

这些数字需要谨慎看待：

第一，DeepSeek R1的350 tokens/秒是什么场景？ 是单用户还是多用户？batch size多大？模型量化了没有？prefill和decode的比例是多少？不同场景下的tokens/second差异极大。Tenstorrent没有公布完整的测试条件。

第二，TCO低5倍怎么算的？ TCO包括硬件成本、功耗、冷却、机房空间、软件迁移成本、人员再培训成本。Tenstorrent可能只算了硬件+功耗，忽略了从CUDA迁移到TT-Forge的隐性成本。

第三，"Blitz Mode"的10倍视频生成速度——AI视频生成是计算密集型任务，但当前主流方案（如Runway、Pika）并不在GPU上跑，而是有自己的优化pipeline。这个对比对象是谁？

第四，更根本的问题：Tenstorrent的软件成熟度远不及CUDA。TT-Forge是公共beta，意味着bug、功能缺失、性能优化不足都是预期内的。对于生产环境，"能跑"和"跑得好"之间隔着几个月甚至几年的工程打磨。

3.3 与NVIDIA GB300的实际对比

维度	NVIDIA GB300	Tenstorrent Galaxy Blackhole
架构	Blackwell GPU + Grace CPU	RISC-V + Tensix
内存	HBM3e	GDDR6 / 片上SRAM
软件生态	CUDA（20年积累）	TT-Forge（beta）
云可用性	AWS/Azure/GCP/所有云	主要是Koyeb等合作伙伴
支持模型	几乎所有AI模型	需编译支持，兼容性有限
推理优化	TensorRT/TensorRT-LLM	自有编译器，优化程度未知
生产验证	全球大规模部署	小规模部署，日本/韩国主权项目

关键结论：Tenstorrent可能在某些特定工作负载（如特定LLM的推理、特定batch size）上有性能优势，但通用性和生态成熟度与NVIDIA差着数量级。这不是Keller的错，这是一个成立5年的初创公司 vs 一个控制行业20年的帝国的现实。

---

四、200亿美元的故事：Groq被处决的前车之鉴

视频提到"另一未公开竞争对手曾迫使英伟达耗资200亿美元收购以消除威胁"。这个竞争对手是Groq。

4.1 Groq是谁：最快的推理芯片

Groq的LPU（Language Processing Unit）由Google TPU之父Jonathan Ross设计。它的架构极端而优雅：

没有缓存、没有分支预测、没有乱序执行——所有硬件复杂性全部砍掉
编译器控制的确定性执行：软件精确知道每个指令何时执行、数据在哪里
片上SRAM替代HBM：容量小（几十MB），但带宽极高，延迟极低
结果：2024年初，Llama 2 70B推理241 tokens/秒，是当时GPU的2倍以上

4.2 NVIDIA为什么要花200亿买Groq

2025年12月24日，NVIDIA宣布以约200亿美元收购Groq的核心技术和团队（包括Jonathan Ross和Sunny Madra）。这是NVIDIA史上最大交易，是2019年Mellanox（70亿）的几乎3倍。

NVIDIA的动机：

1. GPU的结构性短板：GPU优化的是prefill（计算密集型），但推理的decode阶段是内存带宽密集型。Groq的SRAM架构在decode阶段有天然优势。 2. 买不到就毁掉：Groq的LPU技术如果大规模部署，会在推理市场切走NVIDIA的份额。200亿是"保险费用"。 3. 人才收购：Jonathan Ross是Google TPU之父，他的团队加入NVIDIA意味着Google TPU的设计哲学被NVIDIA吸收。

4.3 对Tenstorrent的警示

Groq的200亿收购是独立AI芯片公司的"天花板"——也是"死亡线"：

Groq在2025年9月估值69亿美元，NVIDIA付了2.9倍溢价
这证明了 novel inference架构确实有价值，但也证明了这个价值的上限就是NVIDIA愿意付的收购价
如果Tenstorrent的技术真的威胁到NVIDIA的核心业务，NVIDIA可能会重复Groq剧本——要么收购，要么通过CUDA生态锁定压垮

Keller当然知道这个风险。他的应对策略是开源：NVIDIA可以收购一个公司，但收购不了一个开源生态。TT-Forge是MIT许可证，RISC-V是开放ISA，社区贡献不受任何单一公司控制。这是Linux对Microsoft的策略重演。

---

五、Tenstorrent的商业模式：三条腿走路

Tenstorrent不像Groq只做芯片，它的收入来自三个方向：

5.1 芯片销售（Cloud/Inference）

TT-QuietBox 2：$9,999工作站，4个Blackhole，支持120B参数模型本地运行
TT-LoudBox：数据中心服务器，多卡集群
PCIe加速卡：单卡用于开发和推理
Galaxy Blackhole：机架级超集群

5.2 IP授权（ARM模式）

这是Tenstorrent最聪明的战略：

Ascalon RISC-V CPU IP：授权给LG、Hyundai、日本LSTC
Neo AI核心IP：授权给主权AI项目
Open Chiplet Atlas：开放chiplet互连标准

"most bookings from IP deals"——这意味着Tenstorrent的收入大头不是卖芯片，而是卖设计。ARM不造芯片，但每颗芯片收专利费。Tenstorrent想复制这个模式：自己做参考设计，让Samsung、LG、Hyundai等去制造和销售。

5.3 主权AI项目（国家计算独立）

日本、韩国、加拿大等国家正在用Tenstorrent平台构建主权AI计算基础设施——不受美国出口管制、不受NVIDIA供应链约束。这是地缘政治驱动的需求，NVIDIA无法满足（因为美国出口管制）。Tenstorrent的RISC-V+开源策略让它成为"去美化"AI计算的首选。

---

六、融资与估值：钱够烧到拐点吗？

时间	融资轮	金额	估值	投资者
2024年12月	Series D	超$10亿	$26亿	Samsung、Bezos Expeditions、Fidelity、Hyundai、LG、XTX Markets、Baillie Gifford
2025年11月	目标估值	-	$32亿	-

Series D超额认购，说明资本对Keller有信心。但$26亿 vs NVIDIA的$3万亿，差距是1000倍。Tenstorrent不需要打败NVIDIA才能成功——它只需要在推理市场切下一块蛋糕，或者通过IP授权成为"AI界的ARM"。

关键问题：Tenstorrent的现金能烧到软件生态成熟吗？TT-Forge从beta到production-ready需要多久？历史经验：CUDA花了5年才成熟，ROCm（AMD）花了10年还在追赶。Tenstorrent的开源策略可能加速，但不会奇迹般缩短。

---

七、开源芯片运动的更大图景

Tenstorrent不是孤例。2026年，多条战线同时在挑战NVIDIA：

公司	路线	状态	估值/市值
Cerebras	晶圆级集成（WSE）	2026年5月IPO，$56亿	~$56B
Etched	Transformer硬编码ASIC（Sohu）	未出货，$5亿估值	~$5B
Groq	SRAM-based LPU	2025年12月被NVIDIA收购	$20B
Tenstorrent	RISC-V + 开源生态	芯片出货，IP授权	~$3.2B
AMD	ROCm + GPU	生产中	~$350B
Google	TPU v7 (Ironwood)	生产中	内部
Amazon	Trainium/Inferentia	生产中	内部
Microsoft	Maia/Cobalt	生产中	内部

行业趋势：

推理芯片市场正在分化，从NVIDIA垄断走向多极竞争
hyperscaler（Google、Amazon、Microsoft）都在自研芯片，减少对NVIDIA依赖
独立芯片公司要么被收购（Groq），要么IPO（Cerebras），要么走开源路线（Tenstorrent）
估值逻辑从"能不能造芯片"转向"能不能形成生态"

---

八、结论：Keller的最后一次大赌

Tenstorrent能否"推翻NVIDIA帝国"？诚实答案是：短期内不可能，长期内有可能。

短期（1-3年）的现实：

Tenstorrent的软件栈还不够成熟，生产部署风险高
NVIDIA的CUDA生态锁死了大部分开发者
性能优势只在特定工作负载上，通用性不足
融资虽然充足，但$26亿估值 vs NVIDIA的$3万亿，差距悬殊

长期（5-10年）的可能性：

RISC-V在数据中心的市场份额正在上升（预计2026年25%）
开源生态的粘性一旦形成，很难被专有生态替代（Linux vs Windows的教训）
主权AI需求推动各国建设"去NVIDIA"计算基础设施
IP授权模式可能比卖芯片更有 scalability（ARM模式）
如果AI推理成为比训练更大的市场（正在发生），Tenstorrent的推理优化架构更有优势

Jim Keller的赌局本质：他不是赌Tenstorrent能打败NVIDIA。他是赌AI计算市场的长期结构会分化——从NVIDIA的"一个帝国统治一切"变成"多个专用架构各管一摊"。在这个分化的世界里，Tenstorrent的开放架构和IP授权模式可能比NVIDIA的封闭帝国更有生存空间。

Keller在2026年5月的发布会上说"我们要碾压所有人"。这话是表演，也是信念。64岁的他，职业生涯画了四张改变世界的芯片，现在是第五张。这张牌能不能赢，不取决于他画得多好——他已经画得足够好了。它取决于行业愿不愿意为开源和开放架构买单。

Groq拿到了200亿美元的退场券。Keller显然不想走那条路。他想要的是Tenstorrent成为下一个ARM——不是被收购，而是成为每个芯片都绕不开的基础设施。

---

参考信息：

Tenstorrent官网：https://tenstorrent.com
TT-Forge GitHub：https://github.com/tenstorrent
"NVIDIA's $20B Groq Deal" - Yahoo Finance, 2025-12-26
"Tenstorrent Vows to 'Crush Everyone'" - WCCFtech, 2026-05-02
"Tenstorrent Wins a Global Recognition Award 2026" - Global Recognition Awards
"RISC-V in 2026: 25% Market Share" - AEStech, 2026-05-03
Cerebras IPO: Nasdaq $CBRS, May 2026, ~$56B valuation
"Nvidia to license AI chip challenger Groq's tech" - TechCrunch, 2025-12-24

#NVIDIA #Tenstorrent #JimKeller #RISCV #开源芯片 #AI推理 #Groq #芯片架构 #半导体