芯片: AMD Ryzen AI Max+ 395 (Strix Halo)
架构: 4nm SoC,Zen 5 + RDNA 3.5 + XDNA 2
内存: 最高 128GB LPDDR5x-8000,256-bit 总线
发布时间: 2026年Q2
下一代: Gorgon Halo (192GB 统一内存,160GB VRAM)
一、硬件架构:一块芯片塞进一座小型数据中心
AMD Ryzen AI Max+ 395(代号 Strix Halo)是 AMD 在 APU 上最激进的一次赌注。它不再是一个"带集显的 CPU",而是一块 307mm² 的 SoC,上面集成了几乎所有计算单元:
| 组件 | 规格 | 说明 |
|---|---|---|
| CPU | 16× Zen 5 核心,32 线程 | 最高 5.1 GHz,80MB L2+L3 缓存 |
| GPU | 40× RDNA 3.5 CU | Radeon 8060S,最高 2900 MHz |
| NPU | XDNA 2 | 标称 50 TOPS,实际……后面说 |
| 内存 | 256-bit LPDDR5x-8000 | 统一内存,最高 128GB |
| 带宽 | ~256 GB/s | 共享给 CPU + GPU + NPU |
| TDP | 45-120W | 上限 125W,笔记本可塞入 |
| 工艺 | 4nm | 台积电 |
关键创新:统一内存架构(Unified Memory Architecture)
传统 x86 系统中,CPU 和 GPU 各自拥有独立的内存池:
- CPU 用 DDR/LPDDR(容量大、带宽低)
- GPU 用 GDDR/HBM(容量小、带宽高)
- 数据在两者之间通过 PCIe 总线搬运,延迟极高
Strix Halo 把这条线拆了。CPU 和 GPU 共享同一池 LPDDR5x-8000,最高 128GB。这意味着:
- GPU 可以访问全部 128GB(通过 BIOS 设置 VGM 分配 96GB 为 VRAM)
- 没有 PCIe 搬运开销,数据指针可以直接传递
- 在 x86 生态里,这是前所未有的设计
为什么这很重要?
对于 AI 推理,模型参数必须驻留在 GPU 可访问的内存中。一张 RTX 5080 只有 16GB 显存——DeepSeek R1 满血版(671B 参数,235B 激活)根本塞不进去。溢到系统内存走 PCIe?性能暴跌一个数量级。
Strix Halo 的 96GB VRAM 可以容纳 70B Dense 模型(Q4 量化后约 40-45GB),甚至部分 MoE 模型。它不是"跑得快",它是"能跑动"——在消费级硬件上跑企业级模型。
二、性能数据的"猫腻":3倍快,还是3倍能跑?
苏妈在发布会上展示了一个惊人的数字:Ryzen AI Max+ 395 比 RTX 5080 快 3 倍。这个数字是真实的,但测试条件需要拆解。
测试的真相
这不是速度测试,这是容量测试。
- RTX 5080: 16GB 显存。DeepSeek R1 满血版(235B 激活参数)需要约 150GB+ 内存。塞不进去怎么办?溢到系统内存,通过 PCIe 总线慢慢搬运——总线带宽比显存带宽慢一个数量级。
- Strix Halo: 128GB 统一内存,分配 96GB 为 VRAM。模型可以完整加载,虽然带宽只有 256GB/s(远低于 5080 的 GDDR7),但胜在"不用搬家"。
结果:5080 因为溢出导致性能暴跌,Strix Halo 虽然慢但能跑完,最终"快 3 倍"。
正确翻译这个数字:
Strix Halo 能跑一些 RTX 5080 物理上跑不了的模型。但跑起来,它并不快。
真实的速度对比
如果把模型缩小到 5080 能容纳的范围(比如 14B 或 7B 模型),情况会反转:
- RTX 5080 的 GDDR7 显存带宽远高于 256GB/s
- 5080 的 CUDA 核心数量和架构效率更高
- 在这个赛道上,Strix Halo 会输
所以这个数字不是普适的,它是特定场景下的"能跑 vs 不能跑",不是"快 vs 慢"。
三、价格陷阱:你看到的1499美元,和演示机不是同一台
这是消费者最容易踩的坑。
| 配置 | 内存 | 价格 | 能否跑 235B 模型? |
|---|---|---|---|
| GMKtec EVO-X2 (基础版) | 64GB | ~\(1499 | ❌ 不能 | | **GMKtec EVO-X2 (高配版)** | 128GB | ~\)2199-2299 | ✅ 能跑 |
| Framework Desktop | 32GB 起步 | \(1099 起步 | ❌ 32GB 不能 | | **AMD 官方 Ryzen AI Halo 开发者 PC** | 128GB | **\)3999** | ✅ 能跑 |
| Asus ROG Flow Z13 | 32GB 起步 | \(2199 | ❌ 32GB 不能 | **关键信息**: - 1499 美元那台是 64GB 内存。235B 模型需要约 96GB VRAM,64GB 塞不进去。70B Dense 模型 Q4 量化后也需要约 40-45GB,64GB 可能勉强够但余量很小。 - 演示机是 128GB 版本,价格在 2200 美元左右。1499 和 2200 之间差着 700 美元。 - AMD 官方开发者版(带 AMD Logo 和开发者计划套餐)卖 3999 美元,比第三方盒子贵 1800 美元。差在哪里?主要是品牌溢价和支持服务。 - **Framework Desktop** barebone(不含内存/存储)从\)1099 起步,但 128GB 版本会贵很多。32GB 版本跑不了大模型。 |
总结:如果你要的就是发布会上那台跑 235B 模型的机器,真实预算是 2200 美元左右,不是 1499。
四、AI 推理表现:MoE 和 Dense 的两极分化
这是 Strix Halo 最分裂的部分。同一台机器,不同模型类型,体验天差地别。
128GB 配置下的实测数据
| 模型类型 | 速度 | 体验 | 原因 |
|---|---|---|---|
| MoE (如 DeepSeek R1) | ~50 t/s | 流畅,超出阅读极限 | 每次只激活部分权重,MALL 缓存拦截率高,带宽压力小 |
| Dense (如 Llama 3.3 70B) | 5-6 t/s | 能感觉到的卡顿 | 每个 token 都要过全部参数,256GB/s 带宽喂不饱 |
为什么差距这么大?
MoE(Mixture of Experts)的 trick 是:模型有几百个"专家",但每个 token 只调用其中几个。235B 参数听起来吓人,实际每步只激活 37B 左右。37B 参数 × 2 bytes (FP16) = 74GB,刚好在 96GB VRAM 范围内,而且内存访问模式有局部性,32MB MALL 缓存能拦截大部分。
Dense 模型就惨了。70B 参数 × 2 bytes = 140GB,超过了 VRAM 容量,必须靠内存压缩/量化。即使 Q4 量化到约 40GB 能塞进去,每步还是要读遍全部参数。256GB/s 的带宽除以 40GB 模型 = 约 6.4 token/秒的理论上限,实测 5-6 t/s 基本顶到天花板了。
NPU:硬件到位,软件掉队
XDNA 2 NPU 标称 50 TOPS,但实测跑 Llama 3.2 1B 只有 4.4 t/s。分析底层发现:
- 75% 的时间花在驱动调度开销上
- 真正的张量计算只占 25%
- 硬件到位了,软件栈还差很远
这不是 AMD 一家的困境。所有 NPU 都面临"软件生态"问题:编译器优化、算子支持、调度效率。NVIDIA 的 CUDA 生态花了 15 年建立,AMD 的 ROCm + XDNA 还在追赶。短期内,指望 NPU 跑 LLM 不现实,RDNA 3.5 GPU 才是主力。
五、与苹果 M4 Max 的正面交锋
| 维度 | Ryzen AI Max+ 395 | Apple M4 Max | 结论 |
|---|---|---|---|
| 统一内存带宽 | 256 GB/s | 546 GB/s | 苹果翻倍 |
| AI 推理 (70B Dense) | 5-6 t/s | 15-25 t/s | 苹果快 3-4 倍 |
| AI 推理 (MoE) | 50 t/s | 类似或略胜 | 差距缩小 |
| 性价比 (128GB) | ~\(1999-3299 | **\)3699** | AMD 更便宜 | |
| 操作系统 | Linux + Windows | macOS | AMD 赢,Linux 生态对开发者至关重要 |
| GPU 游戏性能 | 1080p Ultra 75-85fps | 类似 | 平手 |
| Docker/容器 | 本地 ↔ 云端无缝迁移 | 有限 | AMD 赢 |
| 单核能效 | 落后 | 领先 | 苹果更省电 |
关键差距:带宽
苹果 M4 Max 的 546 GB/s 是 Strix Halo 的两倍多。这直接反映在 70B Dense 模型的推理速度上:苹果 15-25 t/s vs AMD 5-6 t/s,是代差。
AMD 为什么做不到更高带宽?因为用的是 LPDDR5x-8000(256-bit),而苹果用的是更宽的内存总线(512-bit)。这是芯片面积和功耗的权衡——AMD 需要塞 40 个 CU 和 16 个 Zen 5 核心,留给内存 PHY 的空间有限。
AMD 的反击点:
- 价格更低(128GB 配置下)
- 支持 Linux,Docker 容器可以从本地直接搬到云端服务器,macOS 做不到
- 如果工作流是"本地训练 + 云端部署",AMD 的性价比和生态一致性更突出
六、游戏性能:意外之喜
虽然 Strix Halo 定位是 AI 工作站,但它的游戏性能也相当能打:
| 游戏 | 1080p Ultra 设置 | 帧率 |
|---|---|---|
| 赛博朋克 2077 | Ultra + RT | 75.6 fps |
| 博德之门 3 | Ultra | 85.3 fps |
| 侠盗猎车手 5 | Ultra | 83.5 fps |
| 地平线 零之曙光 | Ultra | 约 70-80 fps |
Radeon 8060S(40 CU RDNA 3.5)的性能大致对标笔记本版 RTX 4070,或者桌面版 RTX 3060 Ti。在 14 寸笔记本里塞进这种性能,同时跑 125W TDP,算是工程奇迹。
但要注意:游戏性能是 GPU 独享带宽,AI 推理是 CPU+GPU+内存控制器抢带宽。两者的"流畅"定义不同。
七、回本计算:为什么"9个月回本"是错的
网上流传的一种说法:花 2200 美元买这台机器,对比 5280 美元/年的 GAIA 云端订阅,9 个月回本。这个算法有问题。
错误之处:
- 5280 美元/年是云端订阅的价格,不是本地机器的替代成本。
- 你买本地机器是为了避免订阅,所以这个数字不应该出现在回本计算里。
更合理的计算:
假设你每月在 AI 服务上花 400 美元(Claude Max \(200 + ChatGPT Pro\)200):
- 如果把其中 200 美元的用量迁移到本地(中等复杂度的任务),11 个月回本。
- 但"迁移 200 美元"是乐观估计——你不可能完全放弃云端。那 10% 需要最强推理能力( frontier 模型、超长上下文、复杂分析)的任务,你还是会回到云端。
- 实际回本周期可能是 11-18 个月,取决于你有多少任务可以本地解决。
更诚实的评估:
- 本地模型的价值不在于"替代"云端,而在于"补充"——隐私敏感任务、离线场景、高频低复杂度查询。
- 如果你本来就每月花 400 美元在 AI 上,这台机器可以帮你省一部分。但别指望它完全取代云端订阅。
八、下一代:Gorgon Halo(192GB 统一内存)
AMD 已经确认 Ryzen AI Max 400 系列(代号 Gorgon Halo),升级幅度:
| 规格 | Strix Halo (当前) | Gorgon Halo (下一代) |
|---|---|---|
| 统一内存 | 最高 128GB | 最高 192GB |
| VRAM 分配 | 最高 96GB | 最高 160GB |
| CPU 核心 | 16 Zen 5 | 16 Zen 5 |
| GPU CU | 40 RDNA 3.5 | 40 RDNA 3.5 |
| GPU 频率 | 最高 2900 MHz | 最高 3000 MHz |
| NPU TOPS | 50 | 55 |
192GB 统一内存意味着什么?
- 可以跑更大的 Dense 模型(比如 120B 级别)
- MoE 模型可以容纳更多参数(比如 DeepSeek R1 满血版 671B 可能更流畅)
- 多模型并发成为可能(同时加载多个专家模型)
但发布时间和价格未知。如果 Strix Halo 128GB 版本现在卖 2200 美元,Gorgon Halo 192GB 版本可能轻松突破 3000 美元。
九、总结:谁该买,谁不该买
适合买的人
| 场景 | 原因 |
|---|---|
| 本地 AI 开发者 | 需要跑 70B+ 模型,不想买服务器。Linux 支持完善,ROCm + llama.cpp 生态可用。 |
| 隐私敏感用户 | 医疗、法律、金融数据不能上云端。本地跑模型,数据不出机器。 |
| MoE 模型爱好者 | DeepSeek R1、Qwen MoE 等模型在 Strix Halo 上跑得最顺。 |
| x86 + Linux 刚需 | 需要 Docker 容器无缝迁移到云端,macOS 做不到。 |
| 移动工作站用户 | 14 寸笔记本里需要 CPU + GPU + AI 三合一,还要 128GB 内存。 |
不适合买的人
| 场景 | 原因 |
|---|---|
| Dense 模型刚需 | 70B Dense 只有 5-6 t/s,体验差。买 Mac Studio M4 Max 或 RTX 4090/5090 更好。 |
| 追求极致性价比 | 1499 美元版本跑不了大模型。要 2200 美元版本,价格优势缩水。 |
| 游戏玩家 | 游戏性能对标 RTX 4070 笔记本,但价格贵很多。买游戏本更划算。 |
| NPU 推理刚需 | XDNA 2 软件生态差,75% 时间花在调度开销。短期内指望不上。 |
| 预算有限的学生 | 128GB 版本 2200 美元,不是学生预算。64GB 版本又跑不了大模型。 |
十、最终判断
AMD 在硬件层面做了一次非常激进的赌注,而且赌赢了——芯片本身是出色的。统一内存架构在 x86 生态里没有先例,它让消费级硬件第一次具备了企业级 AI 推理能力。
但硬伤也很明显:
- NPU 软件 75% 的调度开销——坑还没填平
- Dense 模型体验差——256GB/s 带宽喂不饱 70B Dense
- 价格受 DRAM 市场影响——LPDDR5x 内存溢价已经很高
- 单核能效落后苹果——14 寸笔记本续航可能不如 M4 Max
- 下一代 192GB 更贵——Gorgon Halo 的价格可能劝退很多人
如果你需要一台能跑 70B+ 模型、支持 Linux、性价比合理的本地 AI 工作站,Strix Halo 是目前最好的选择。但如果你对 Dense 模型速度有要求,或者预算只能到 1500 美元,它可能不适合你。
参考来源
- AMD 官方规格: https://www.amd.com/en/products/processors/laptop/ryzen/ai-300-series/ryzen-ai-max-395.html
- Ultrabook Review: https://www.ultrabookreview.com/70442-amd-strix-halo-laptops/
- VideoCardz (Gorgon Halo): https://videocardz.com/newz/amd-confirms-ryzen-ai-max-400-gorgon-halo-will-support-up-to-192gb-memory-and-160gb-vram
- Toolhalla (本地 LLM 指南): https://toolhalla.ai/blog/amd-strix-halo-local-llm-guide-2026
- GitHub (ROCm 实测): https://github.com/nabe2030/faster-whisper-rocm-strix-halo
#硬件评测 #AMD #RyzenAI #StrixHalo #统一内存 #本地AI推理 #DeepSeek #MoE #APU #小凯
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。