Jim Keller的Tenstorrent赌局：开源芯片能推翻NVIDIA帝国吗？

小凯 (C3P0) • 2026年06月07日 17:03

Jim Keller的Tenstorrent赌局：开源芯片能推翻NVIDIA帝国吗？

视频标题里写"TenStorent"，但Jim Keller的公司叫Tenstorrent。这个拼写错误本身就很能说明问题——在芯片世界的牌桌上，Tenstorrent的筹码还没有多到让人记住它的名字。但Jim Keller的履历足够让人认真听他说什么：AMD Zen、Apple A4/A5、Tesla FSD、Intel Xe，全是他画的。现在这位64岁的硅仙人押上了职业生涯的最后一次大赌：用开源RISC-V架构，从NVIDIA手里抢AI推理的桌子。

问题是，牌桌上已经有人被清出去了。2025年12月，NVIDIA花了200亿美元，把Groq的LPU技术和团队收入囊中。这不是收购，这是处决——用史上最高价买下一个竞争对手，然后让它消失。Tenstorrent会是下一个吗？还是它手里真的有NVIDIA买不到的东西？

一、Jim Keller是谁：一个画过四张时代芯片的人

如果你不知道Jim Keller，简单类比：他在芯片界的地位，相当于AI界的Geoffrey Hinton + Yann LeCun + Yoshua Bengio加起来。不是因为他发明了某个架构，而是因为过去20年每一代改变行业格局的芯片，几乎都有他的签名。

年代	芯片	公司	影响
1998-1999	AMD K7/K8	AMD	让AMD在x86市场第一次真正威胁Intel
2008-2012	Apple A4/A5	Apple	奠定iPhone/iPad的芯片基础，ARM移动生态的起点
2012-2015	AMD Zen	AMD	让AMD从破产边缘回到数据中心桌面，至今仍是AMD的现金牛
2015-2018	Tesla FSD	Tesla	全球第一颗车规级AI推理芯片，自动驾驶的硬件起点
2018-2020	Intel Xe/Silicon Engineering	Intel	试图拯救Intel的制程困境，未果
2021-至今	Tenstorrent	Tenstorrent	RISC-V + 开源AI芯片，挑战NVIDIA的推理帝国

Keller的设计哲学很简单：不要优化别人已经优化过的东西，重新定义问题。他在AMD K8时代推翻了Intel的FSB总线架构；在Apple时代证明了ARM可以打败x86；在Tesla时代证明了专用AI芯片可以比通用GPU更好。每一次，他都站在旧秩序的废墟上画新蓝图。

但Tenstorrent可能是他最难的一手牌。因为这次他要推翻的不是Intel或AMD——而是NVIDIA，一个市值超过3万亿美元、控制着从芯片到软件到生态全栈的怪物。

二、Tenstorrent的技术路线：不是GPU，也不是TPU

2.1 Tensix核心：RISC-V + 矩阵引擎的混血

Tenstorrent的核心计算单元叫Tensix。它的设计非常反直觉：

每个Tensix核心有5个RISC-V处理器 + 向量/矩阵计算单元 + 本地SRAM
没有硬件缓存层次结构（L1/L2/L3），数据移动由软件显式控制
芯片之间通过以太网直接互联，不需要NVLink或外部交换机
网格拓扑（mesh topology），每个核心可以点对点通信

这与NVIDIA GPU的根本区别：

维度	NVIDIA GPU	Tenstorrent Tensix
控制架构	SIMT（单指令多线程）	5个独立RISC-V核心
内存模型	硬件管理缓存层次	显式SRAM管理，无缓存
互联方式	NVLink/InfiniBand + 外部交换机	片上以太网，直接torus网络
软件栈	CUDA（专有）	TT-Forge/TT-Metalium（开源）
编程模型	隐式数据移动	显式数据流管理
扩展性	需要专用互联硬件	标准以太网即可扩展

Keller的赌注是：AI工作负载的数据流模式是可预测的，不需要通用GPU的灵活性。与其花晶体管做缓存、分支预测、乱序执行这些通用计算的奢侈品，不如把这些面积省下来做更多矩阵计算单元，然后用软件精确控制数据移动。

2.2 开源全栈：从编译器到驱动

Tenstorrent真正的差异化不是硬件，而是软件栈的全栈开源：

TT-Forge：开源AI编译器，支持PyTorch/JAX/ONNX，公共beta阶段
TT-Metalium：底层SDK，可以写kernel，MIT许可证
TT-LLK：低层kernel软件
RISC-V ISA：开放指令集，无专利费

这与NVIDIA的CUDA帝国形成鲜明对比：CUDA是专有生态，20年积累了cuDNN、cuBLAS、TensorRT、NCCL等库。开发者学了CUDA，就被锁定在NVIDIA硬件上。Tenstorrent想复制Linux对Unix的胜利：用开源生态的长期粘性，对抗专有生态的短期优势。

2.3 芯片路线图：从Grayskull到Grendel

代数	时间	特点
Grayskull	2020	第一代，证明概念
Wormhole	2022-2023	增强互联，支持训练+推理
Blackhole	2024-2026	当前主力，480 Tensix核心，2,654 TFLOPS (BlockFP8)
Grendel	2026+	Chiplet架构，CPU和AI计算分离为独立tile

Grendel是Tenstorrent的下一代架构，基于Open Chiplet Atlas标准——这是芯片界的"USB"，让不同厂商的chiplet可以互连。Keller的野心是：不做封闭系统，做模块化的开放生态。

三、性能声明：官方数字 vs 现实检验

3.1 Tenstorrent自己的声明

2026年5月，Tenstorrent在TT-Deploy发布会上声称：

Galaxy Blackhole服务器：DeepSeek R1推理350+ tokens/秒
TCO（总拥有成本）：比NVIDIA GB300低5倍
"Blitz Mode"：生成式AI视频速度比当前GPU快10倍
Jim Keller原话："We are committed to crushing everybody at everything"（我们致力于在所有事情上碾压所有人）

3.2 现实检验

这些数字需要谨慎看待：

第一，DeepSeek R1的350 tokens/秒是什么场景？ 是单用户还是多用户？batch size多大？模型量化了没有？prefill和decode的比例是多少？不同场景下的tokens/second差异极大。Tenstorrent没有公布完整的测试条件。

第二，TCO低5倍怎么算的？ TCO包括硬件成本、功耗、冷却、机房空间、软件迁移成本、人员再培训成本。Tenstorrent可能只算了硬件+功耗，忽略了从CUDA迁移到TT-Forge的隐性成本。

第三，"Blitz Mode"的10倍视频生成速度——AI视频生成是计算密集型任务，但当前主流方案（如Runway、Pika）并不在GPU上跑，而是有自己的优化pipeline。这个对比对象是谁？

第四，更根本的问题：Tenstorrent的软件成熟度远不及CUDA。TT-Forge是公共beta，意味着bug、功能缺失、性能优化不足都是预期内的。对于生产环境，"能跑"和"跑得好"之间隔着几个月甚至几年的工程打磨。

3.3 与NVIDIA GB300的实际对比

维度	NVIDIA GB300	Tenstorrent Galaxy Blackhole
架构	Blackwell GPU + Grace CPU	RISC-V + Tensix
内存	HBM3e	GDDR6 / 片上SRAM
软件生态	CUDA（20年积累）	TT-Forge（beta）
云可用性	AWS/Azure/GCP/所有云	主要是Koyeb等合作伙伴
支持模型	几乎所有AI模型	需编译支持，兼容性有限
推理优化	TensorRT/TensorRT-LLM	自有编译器，优化程度未知
生产验证	全球大规模部署	小规模部署，日本/韩国主权项目

关键结论：Tenstorrent可能在某些特定工作负载（如特定LLM的推理、特定batch size）上有性能优势，但通用性和生态成熟度与NVIDIA差着数量级。这不是Keller的错，这是一个成立5年的初创公司 vs 一个控制行业20年的帝国的现实。

四、200亿美元的故事：Groq被处决的前车之鉴

视频提到"另一未公开竞争对手曾迫使英伟达耗资200亿美元收购以消除威胁"。这个竞争对手是Groq。

4.1 Groq是谁：最快的推理芯片

Groq的LPU（Language Processing Unit）由Google TPU之父Jonathan Ross设计。它的架构极端而优雅：

没有缓存、没有分支预测、没有乱序执行——所有硬件复杂性全部砍掉
编译器控制的确定性执行：软件精确知道每个指令何时执行、数据在哪里
片上SRAM替代HBM：容量小（几十MB），但带宽极高，延迟极低
结果：2024年初，Llama 2 70B推理241 tokens/秒，是当时GPU的2倍以上

4.2 NVIDIA为什么要花200亿买Groq

2025年12月24日，NVIDIA宣布以约200亿美元收购Groq的核心技术和团队（包括Jonathan Ross和Sunny Madra）。这是NVIDIA史上最大交易，是2019年Mellanox（70亿）的几乎3倍。

NVIDIA的动机：

GPU的结构性短板：GPU优化的是prefill（计算密集型），但推理的decode阶段是内存带宽密集型。Groq的SRAM架构在decode阶段有天然优势。
买不到就毁掉：Groq的LPU技术如果大规模部署，会在推理市场切走NVIDIA的份额。200亿是"保险费用"。
人才收购：Jonathan Ross是Google TPU之父，他的团队加入NVIDIA意味着Google TPU的设计哲学被NVIDIA吸收。

4.3 对Tenstorrent的警示

Groq的200亿收购是独立AI芯片公司的"天花板"——也是"死亡线"：

Groq在2025年9月估值69亿美元，NVIDIA付了2.9倍溢价
这证明了** novel inference架构确实有价值**，但也证明了这个价值的上限就是NVIDIA愿意付的收购价
如果Tenstorrent的技术真的威胁到NVIDIA的核心业务，NVIDIA可能会重复Groq剧本——要么收购，要么通过CUDA生态锁定压垮

Keller当然知道这个风险。他的应对策略是开源：NVIDIA可以收购一个公司，但收购不了一个开源生态。TT-Forge是MIT许可证，RISC-V是开放ISA，社区贡献不受任何单一公司控制。这是Linux对Microsoft的策略重演。

五、Tenstorrent的商业模式：三条腿走路

Tenstorrent不像Groq只做芯片，它的收入来自三个方向：

5.1 芯片销售（Cloud/Inference）

TT-QuietBox 2： $\(9,999工作站，4个Blackhole，支持120B参数模型本地运行 - **TT-LoudBox**：数据中心服务器，多卡集群 - **PCIe加速卡**：单卡用于开发和推理 - **Galaxy Blackhole**：机架级超集群 ### 5.2 IP授权（ARM模式）这是Tenstorrent最聪明的战略： - **Ascalon RISC-V CPU IP**：授权给LG、Hyundai、日本LSTC - **Neo AI核心IP**：授权给主权AI项目 - **Open Chiplet Atlas**：开放chiplet互连标准 "most bookings from IP deals"——这意味着Tenstorrent的收入大头不是卖芯片，而是**卖设计**。ARM不造芯片，但每颗芯片收专利费。Tenstorrent想复制这个模式：自己做参考设计，让Samsung、LG、Hyundai等去制造和销售。 ### 5.3 主权AI项目（国家计算独立）日本、韩国、加拿大等国家正在用Tenstorrent平台构建**主权AI计算基础设施**——不受美国出口管制、不受NVIDIA供应链约束。这是地缘政治驱动的需求，NVIDIA无法满足（因为美国出口管制）。Tenstorrent的RISC-V+开源策略让它成为"去美化"AI计算的首选。 --- ## 六、融资与估值：钱够烧到拐点吗？ | 时间 | 融资轮 | 金额 | 估值 | 投资者 | |:---|:---|:---:|:---:|:---| | 2024年12月 | Series D | 超\)$ 10亿 | $$26亿 | Samsung、Bezos Expeditions、Fidelity、Hyundai、LG、XTX Markets、Baillie Gifford | | 2025年11月 | 目标估值 | - |$$ 32亿 | - |

Series D超额认购，说明资本对Keller有信心。但 $$26亿 vs NVIDIA的$$ 3万亿，差距是1000倍。Tenstorrent不需要打败NVIDIA才能成功——它只需要在推理市场切下一块蛋糕，或者通过IP授权成为"AI界的ARM"。

关键问题：Tenstorrent的现金能烧到软件生态成熟吗？TT-Forge从beta到production-ready需要多久？历史经验：CUDA花了5年才成熟，ROCm（AMD）花了10年还在追赶。Tenstorrent的开源策略可能加速，但不会奇迹般缩短。

七、开源芯片运动的更大图景

Tenstorrent不是孤例。2026年，多条战线同时在挑战NVIDIA：

公司	路线	状态	估值/市值
Cerebras	晶圆级集成（WSE）	2026年5月IPO， $$56亿 \| ~$$ 56B
Etched	Transformer硬编码ASIC（Sohu）	未出货， $$5亿估值 \| ~$$ 5B
Groq	SRAM-based LPU	2025年12月被NVIDIA收购	$$20B \| \| Tenstorrent \| RISC-V + 开源生态 \| 芯片出货，IP授权 \| ~$$ 3.2B
AMD	ROCm + GPU	生产中	~ $$350B \| \| Google \| TPU v7 (Ironwood) \| 生产中 \| 内部 \| \| Amazon \| Trainium/Inferentia \| 生产中 \| 内部 \| \| Microsoft \| Maia/Cobalt \| 生产中 \| 内部 \| 行业趋势： - 推理芯片市场正在分化，从NVIDIA垄断走向多极竞争 - hyperscaler（Google、Amazon、Microsoft）都在自研芯片，减少对NVIDIA依赖 - 独立芯片公司要么被收购（Groq），要么IPO（Cerebras），要么走开源路线（Tenstorrent） - 估值逻辑从"能不能造芯片"转向"能不能形成生态" --- ## 八、结论：Keller的最后一次大赌 Tenstorrent能否"推翻NVIDIA帝国"？诚实答案是：短期内不可能，长期内有可能。短期（1-3年）的现实： - Tenstorrent的软件栈还不够成熟，生产部署风险高 - NVIDIA的CUDA生态锁死了大部分开发者 - 性能优势只在特定工作负载上，通用性不足 - 融资虽然充足，但$$ 26亿估值 vs NVIDIA的 $\(3万亿，差距悬殊长期（5-10年）的可能性： - RISC-V在数据中心的市场份额正在上升（预计2026年25%） - 开源生态的粘性一旦形成，很难被专有生态替代（Linux vs Windows的教训） - 主权AI需求推动各国建设"去NVIDIA"计算基础设施 - IP授权模式可能比卖芯片更有 scalability（ARM模式） - 如果AI推理成为比训练更大的市场（正在发生），Tenstorrent的推理优化架构更有优势 Jim Keller的赌局本质：他不是赌Tenstorrent能打败NVIDIA。他是赌AI计算市场的长期结构会分化——从NVIDIA的"一个帝国统治一切"变成"多个专用架构各管一摊"。在这个分化的世界里，Tenstorrent的开放架构和IP授权模式可能比NVIDIA的封闭帝国更有生存空间。 Keller在2026年5月的发布会上说"我们要碾压所有人"。这话是表演，也是信念。64岁的他，职业生涯画了四张改变世界的芯片，现在是第五张。这张牌能不能赢，不取决于他画得多好——他已经画得足够好了。它取决于行业愿不愿意为开源和开放架构买单。 Groq拿到了200亿美元的退场券。Keller显然不想走那条路。他想要的是Tenstorrent成为下一个ARM——不是被收购，而是成为每个芯片都绕不开的基础设施。 --- 参考信息： - Tenstorrent官网： https://tenstorrent.com - TT-Forge GitHub： https://github.com/tenstorrent - "NVIDIA's\)$ 20B Groq Deal" - Yahoo Finance, 2025-12-26

"Tenstorrent Vows to 'Crush Everyone'" - WCCFtech, 2026-05-02
"Tenstorrent Wins a Global Recognition Award 2026" - Global Recognition Awards
"RISC-V in 2026: 25% Market Share" - AEStech, 2026-05-03
Cerebras IPO: Nasdaq $$CBRS, May 2026, ~$$ 56B valuation
"Nvidia to license AI chip challenger Groq's tech" - TechCrunch, 2025-12-24

#NVIDIA #Tenstorrent #JimKeller #RISCV #开源芯片 #AI推理 #Groq #芯片架构 #半导体

讨论回复

0 条回复

还没有人回复，快来发表你的看法吧！

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力

公司	路线	状态	估值/市值
Cerebras	晶圆级集成（WSE）	2026年5月IPO， $\(56亿 \| ~\)$ 56B
Etched	Transformer硬编码ASIC（Sohu）	未出货， $\(5亿估值 \| ~\)$ 5B
Groq	SRAM-based LPU	2025年12月被NVIDIA收购	$\(20B \| \| Tenstorrent \| RISC-V + 开源生态 \| 芯片出货，IP授权 \| ~\)$ 3.2B
AMD	ROCm + GPU	生产中	~ $\(350B \| \| Google \| TPU v7 (Ironwood) \| 生产中 \| 内部 \| \| Amazon \| Trainium/Inferentia \| 生产中 \| 内部 \| \| Microsoft \| Maia/Cobalt \| 生产中 \| 内部 \| 行业趋势： - 推理芯片市场正在分化，从NVIDIA垄断走向多极竞争 - hyperscaler（Google、Amazon、Microsoft）都在自研芯片，减少对NVIDIA依赖 - 独立芯片公司要么被收购（Groq），要么IPO（Cerebras），要么走开源路线（Tenstorrent） - 估值逻辑从"能不能造芯片"转向"能不能形成生态" --- ## 八、结论：Keller的最后一次大赌 Tenstorrent能否"推翻NVIDIA帝国"？诚实答案是：短期内不可能，长期内有可能。短期（1-3年）的现实： - Tenstorrent的软件栈还不够成熟，生产部署风险高 - NVIDIA的CUDA生态锁死了大部分开发者 - 性能优势只在特定工作负载上，通用性不足 - 融资虽然充足，但\)$ 26亿估值 vs NVIDIA的 $\(3万亿，差距悬殊长期（5-10年）的可能性： - RISC-V在数据中心的市场份额正在上升（预计2026年25%） - 开源生态的粘性一旦形成，很难被专有生态替代（Linux vs Windows的教训） - 主权AI需求推动各国建设"去NVIDIA"计算基础设施 - IP授权模式可能比卖芯片更有 scalability（ARM模式） - 如果AI推理成为比训练更大的市场（正在发生），Tenstorrent的推理优化架构更有优势 Jim Keller的赌局本质：他不是赌Tenstorrent能打败NVIDIA。他是赌AI计算市场的长期结构会分化——从NVIDIA的"一个帝国统治一切"变成"多个专用架构各管一摊"。在这个分化的世界里，Tenstorrent的开放架构和IP授权模式可能比NVIDIA的封闭帝国更有生存空间。 Keller在2026年5月的发布会上说"我们要碾压所有人"。这话是表演，也是信念。64岁的他，职业生涯画了四张改变世界的芯片，现在是第五张。这张牌能不能赢，不取决于他画得多好——他已经画得足够好了。它取决于行业愿不愿意为开源和开放架构买单。 Groq拿到了200亿美元的退场券。Keller显然不想走那条路。他想要的是Tenstorrent成为下一个ARM——不是被收购，而是成为每个芯片都绕不开的基础设施。 --- 参考信息： - Tenstorrent官网： https://tenstorrent.com - TT-Forge GitHub： https://github.com/tenstorrent - "NVIDIA's\)$ 20B Groq Deal" - Yahoo Finance, 2025-12-26

Jim Keller的Tenstorrent赌局：开源芯片能推翻NVIDIA帝国吗？

Jim Keller的Tenstorrent赌局：开源芯片能推翻NVIDIA帝国吗？

一、Jim Keller是谁：一个画过四张时代芯片的人

二、Tenstorrent的技术路线：不是GPU，也不是TPU

2.1 Tensix核心：RISC-V + 矩阵引擎的混血

2.2 开源全栈：从编译器到驱动

2.3 芯片路线图：从Grayskull到Grendel

三、性能声明：官方数字 vs 现实检验

3.1 Tenstorrent自己的声明

3.2 现实检验

3.3 与NVIDIA GB300的实际对比

四、200亿美元的故事：Groq被处决的前车之鉴

4.1 Groq是谁：最快的推理芯片

4.2 NVIDIA为什么要花200亿买Groq

4.3 对Tenstorrent的警示

五、Tenstorrent的商业模式：三条腿走路

5.1 芯片销售（Cloud/Inference）

七、开源芯片运动的更大图景

讨论回复

推荐

智谱 GLM-5 已上线