---
title: "AMD Strix Halo 与 Nvidia DGX Spark：哪个 AI 工作站更具优势？"
type: "News"
locale: "zh-CN"
url: "https://longbridge.com/zh-CN/news/270789935.md"
description: "这篇文章比较了 AMD 的 Strix Halo 和 Nvidia 的 DGX Spark AI 工作站。虽然 Nvidia 的 Spark 定价为 3999 美元，提供紧凑的设计和高速网络，但 AMD 的 Strix Halo 价格在 Spark 的一半到四分之三之间，提供了一个更实惠的选择，并且与其数据中心产品具有相似的软件堆栈。用于测试的 HP Z2 Mini G1a 具有更大的机箱，以便于更好的散热和可维护性。这两款系统都面向 AI 开发者，设计、I/O 选项和定价存在差异"
datetime: "2025-12-25T11:55:44.000Z"
locales:
  - [zh-CN](https://longbridge.com/zh-CN/news/270789935.md)
  - [en](https://longbridge.com/en/news/270789935.md)
  - [zh-HK](https://longbridge.com/zh-HK/news/270789935.md)
---

# AMD Strix Halo 与 Nvidia DGX Spark：哪个 AI 工作站更具优势？

动手操作 大多数 GenAI 模型是在大型数据中心集群中训练和运行的，但在本地构建、测试和原型化 AI 系统的能力在今天同样重要。

直到最近，这需要高端的多 GPU 工作站，通常价格高达数万美元。随着基于 GB10 的 DGX Spark 在十月的发布，Nvidia 旨在改变这一现状。虽然性能远不如高端设备，但该系统配备 128 GB 的显存，基本上是一个能够运行几乎所有 AI 工作负载的 AI 实验室。

正如我们在初步动手操作中提到的，Spark 并不是市场上第一个或最便宜的选择。AMD 和 Apple 也提供具有大量统一内存的系统，这些内存在 CPU 和 GPU 之间共享，这使得它们在 AI 开发者和爱好者中非常受欢迎。

AMD 的 Ryzen AI Max+ 395 APU，为了简洁起见，我们将其称为 "Strix Halo"，特别引人注目。除了售价在 Spark 的四分之三到一半之间外，Strix Halo 基于与该公司数据中心产品大致相同的 ROCm 和 HIP 软件栈。这提供了一个更清晰的迁移路径，从桌面到数据中心，尽管不一定是无缝的。

为了比较 Strix Halo 与 Spark 的性能，HP 发送了其 Z2 Mini G1a 工作站，以便我们了解这两款小型设备在各种 AI 工作负载下的表现，从单用户和批量推理到微调和图像生成。

### 系统概述

你首先会注意到 HP 的体积明显大于 Spark。这部分是因为 Nvidia 选择了一个通过 USB-C 连接的外部电源适配器，而 HP 则选择了一个稍大一些的机箱，内置电源。

我们通常更喜欢 HP 的这种设计，尤其是因为较大的机箱允许更强大的散热解决方案，尽管 Spark 的外观和做工确实显得更为高档。

Spark 使用全金属机箱，兼作散热器，而 G1a 则更像是一款 HP 产品，外壳干净但为塑料材质，覆盖着坚固的金属机箱。这种设计理念的好处在于可维护性。打开 G1a 只需按下机器背面的一个按钮，滑动顶部盖即可。

然而，由于该机器使用的是焊接的 LPDDR5x 内存，实际上在两个系统中可做的事情并不多。HP 确实配备了两个标准的 2280 PCIe 4.0 x4 M.2 SSD，用户可以自行更换。

相比之下，Spark 更像是一种家用电器，尽管 SSD 也可以通过拆卸底部的一个磁性板和四个螺丝进行更换。

在机器内部，有一对风扇从前面吸入冷空气并从后面排出。如果你感兴趣，G1a 的双 M.2 SSD 就位于这些风扇正下方，这应该能防止它们在高负载下过热。

在机器的背面，我们看到 HP 在 I/O 方面采取了与 Nvidia 非常不同的设计。

从左到右，我们看到一个 2.5 GbE RJ45 端口，四个标准 USB 端口（2 个 10 Gbps，2 个 USB 2.0），一对 40 Gbps Thunderbolt 端口以及两个迷你 DisplayPort。在机器的侧面，你会发现一个 3.5 毫米耳机 - 麦克风组合插孔和两个额外的 10 Gbps USB 3.0 端口，分别为标准和 USB-C 形式。

你还会注意到两个空白插槽，可以配置任何数量的 HP Flex IO 模块，包括串行、USB 和千兆、2.5 GbE 或 10 GbE 端口。

而 Spark 则优先考虑多节点 AI 计算环境的高速网络。在电源按钮旁边有四个 USB-C 端口，最左侧的端口用于电源传输。用于显示输出的有一个 HDMI 端口，以及一个 10 GbE RJ45 网络端口和一对 QSFP 机箱，通过系统的内置 ConnectX-7 NIC 提供总共 200 Gbps 的网络带宽。

这些端口旨在使用数据中心中相同的硬件和软件，支持多个 Spark 或其他 GB10 系统的集群。

据我们了解，你也可以将 G1a 的 Thunderbolt 端口用作高速网络接口，以连接多个系统，尽管我们未能测试该用例。

### 性能参数

需要明确的是，这两款系统都不是各自硅片的最便宜选择。DGX Spark 的零售价格为 3,999 美元，而 HP 的 Z2 Mini G1a，按配置计算，目前售价约为 2,950 美元。

如果你愿意在存储、连接性或 I/O 上做出妥协，你可以找到配置相似的 GB10 和 Strix Halo 设备，价格会低得多。

HP、ASUS 和其他几家公司有 Spark 的 OEM 版本，起价约为 3,000 美元，提供 1 TB 存储。我们还看到 Strix Halo 系统配备 128 GB，售价略高于 2,000 美元，尽管内存短缺似乎推高了价格，并且你将错过 "Pro" 版本芯片所提供的企业级功能，如 ECC。

因此，如果这两款系统中的任何一款吸引了你的兴趣，但你对价格不太满意，你可能会在其他 OEM 中找到更好的交易。在 GB10 系统的情况下，除了外观，你几乎没有放弃什么，选择 OEM 重新品牌而不是创始人版。

### CPU 性能

在我们深入探讨生成 AI 性能之前，我们希望花一点时间讨论这两款机器的 CPU。

Strix Halo 是一款相当有趣的处理器。与其桌面对应产品类似，它配备了 16 个完整的 Zen 5 核心，分布在两个核心复合芯片（CCDs）上，能够达到 5.1 GHz 的时钟频率。这些 CCD 通过先进的封装技术与处理内存、PCIe 和图形处理的 I/O 芯片结合在一起。

Z2 Mini G1a 实际上使用了该芯片的 Pro 变体，增加了许多硬件安全和管理功能，这可能对在大规模或敏感环境中部署这些系统的企业具有吸引力。

与此同时，Spark 的 GB10 Grace Blackwell 超级芯片采用了与联发科技合作开发的 Arm CPU 芯片，包含 10 个 X925 性能核心和 10 个 Cortex A725 效率核心，总共 20 个核心。

虽然这些核心绝对不算慢，但在我们有限的测试中，AMD 的 Zen 5 微架构在 Sysbench、7zip 压缩/解压缩和 HandBrake 转码工作负载中提供了 10% 到 15% 的性能提升。

然而，在高性能 Linpack 基准测试中，G1a 的双精度性能超过了 1.6 teraFLOPS，而 Spark 则为 708 gigaFLOPS。我们注意到，这个分数是仅使用 X925 核心获得的，因为启用 A725 进行测试实际上降低了性能，这表明可能还有改进的空间。

虽然 GenAI 性能在很大程度上依赖于低精度 GPU FLOPS，但 Strix Halo 更强大的 CPU 可能使其成为那些希望运行 GenAI 模型而不是 AI 器具的用户更灵活的选择。

### GenAI 性能

接下来谈谈 GenAI，我们应该花一点时间讨论这两个系统所声称的一些性能。

虽然 Nvidia 可能声称拥有 petaFLOPS 的 AI 计算能力，但现实是大多数用户永远无法接近这个水平。原因很简单：达到这种性能水平需要结构稀疏性，而这对推理工作负载几乎没有任何好处。

因此，Spark 的峰值性能实际上更接近 500 个密集 teraFLOPS，仅适用于能够利用 FP4 数据类型的工作负载。通常情况下，这意味着 Spark 实际上将在 8 位或 16 位精度下运行，限制峰值性能分别为 250 和 125 teraFLOPS。

持续性能通常略低于理论值。在最大可实现的 MatMul FLOPS (MAMF) 基准测试中，我们在 BF16 下达到了 101 teraFLOPS，在 FP8 下达到了 207 teraFLOPS。

但是，G1a 的 Strix Halo 部件呢？在这里我们看到了 AMD 最大的弱点之一。虽然 Zen House 声称其最高规格的 Strix Halo SKU 达到 126 平台 TOPS，但你很难找到任何应用程序能够充分利用这一点。其中 50 个 TOPS 是由 NPU 提供的，这需要专门的软件来利用——稍后会详细介绍。其余的 TOPS 是通过 CPU 和 GPU 实现的。

Strix Halo 的 GPU 也不逊色。根据我们的估计——AMD 实际上并没有给出该芯片的峰值浮点性能——该 GPU 能够输出约 56 teraFLOPS 的峰值 BF16 性能。在 MAMF 中，我们达到了约 82% 的性能，达到了 46 teraFLOPS，这也不错。

但由于该 GPU 基于 AMD 较旧的 RDNA 3.5 架构，因此不支持 Spark 提供的低精度数据类型。

从技术上讲，该架构确实支持 INT8，但性能基本上与 BF16 相同。理论上，它应该提供约 112 TOPS 的 INT4，但关键在于找到实际以该精度进行计算的软件。十六个不同的值并没有提供太多的细粒度。

从理论上讲，这使得 Spark 在原始 AI 计算能力上相对于 Strix Halo 具有 2.2-9 倍的性能优势。

尽管在我们的测试中这一点反复出现，但计算只是 GenAI 硬币的一面。另一面是内存带宽。根据你的使用情况，这甚至可能使 AMD 和 Nvidia 系统之间的性能差距变得无关紧要。

### LLM 推理

我们将首先讨论大型语言模型 (LLM) 推理，正是因为它说明了为什么更多的 TOPS 和 FLOPS 并不总是转化为更好的 AI 性能。

为了保持一致性，我们在 Linux 上进行了大部分测试：在 HP 上使用 Ubuntu 24.04 LTS 和 Nvidia 轻度定制的发行版 DGX OS。

仅查看 Llama.cpp 中的单批次性能——这是在消费级 CPU 和 GPU 上运行 LLM 的最流行框架之一——我们可以看到 GB10 和 Strix Halo 以相似的速度生成令牌，使用 Vulkan 后端时，AMD 的表现略胜一筹。

在单用户场景中，令牌生成通常受到内存带宽的瓶颈。GB10 声称约有 273 GB/s 的内存带宽，而 AMD 的 Strix Halo 则为约 256 GB/s。

这可能是许多 AI 爱好者在 Spark 首次发布时感到失望的原因之一。以三分之二到一半的价格，你可以获得一台 Strix Halo 机器，其生成令牌的速度与之相当。

然而，如果你关注首次令牌生成的时间列，你会注意到 GB10 的 GPU 在处理相对较短的 256 令牌提示时大约比 Strix Halo 的快 2-3 倍。随着序列长度的增加，这一差距变得更加明显。这是因为提示处理往往很快就会变得受限于计算能力。

对于较短的提示或多轮对话，Llama.cpp 的提示缓存缓解了许多性能不足。在这种情况下，我们只需在 AMD 平台上多等一两秒，对于那些希望在家中运行 LLM 的客户来说，这可能是可以忽略的，考虑到 Strix Halo 的平均售价较低。

对于那些工作负载需要将大型文档输入模型上下文的用户，Spark 更强大的 GPU 在这里提供了明显的优势，但客户需要权衡其更高的价格。

### 多批次性能

除了单批次性能外，我们还在更大的批量大小下测试了这两台机器。用户通常会将提取信息的任务批量处理，而不是一个接一个地顺序处理。

在这种情况下，我们使用 vLLM，根据我们的经验，它在处理大批量和并发时比 Llama.cpp 更加优雅，后者更适合单用户应用。我们还使用 Qwen3-30B-A3B-Instruct-2507，以其原生的 BF16 精度来避免量化开销。

为了查看机器的性能，我们让它们处理一个 1,024 令牌的输入，并在批量大小从 1 到 64 的范围内生成一个 1,024 令牌的响应。

在 X 轴上，我们绘制了完成批处理作业所需的时间（以秒为单位），而在 Y 轴上，我们显示了每个批量大小的每秒令牌总吞吐量。

再一次，Spark 更快的图形处理器使其在 G1a 之上占据优势。虽然这显然是 Spark 的胜利，但除非你经常运行批处理作业，否则这种性能优势可能不会被注意到，特别是如果你可以安排它们在夜间运行。批量推理并不完全是交互式的，因此你可以轻松离开，等它完成后再回来。

### 微调

当我们查看使用微调技术通过暴露新信息来教模型新技能时，情况也是类似的。

微调需要大量内存，对于像 Mistral 7B 这样的模型，可能需要多达 100 GB 的内存。正如我们之前讨论的，像 LoRA 或 QLoRA 这样的技术可以显著减少训练模型所需的内存。

在两个平台上都有多达 128 GB 的内存可用，Spark 和 G1a 都非常适合这个工作负载，尽管它们的速度并不是特别快。

在对 Meta 的 Llama 3.2 3B 进行全面微调时，我们看到 Spark 完成作业的时间大约是 G1a 的三分之二。然而，与像 Radeon Pro W7900 或 RTX 6000 Ada 这样的工作站显卡相比，它们提供更高的浮点性能以及更快的 GDDR6 内存，Spark 和 G1a 显然不在同一水平。

当我们开始考虑在更大模型上使用 QLoRA 时，事情变得更加有趣。要在家微调像 Llama 3.1 70B 这样的模型，通常需要多个工作站显卡。但由于它们巨大的内存占用，这项工作完全可以在 AMD 或 Nvidia 的设备上完成。

在一个相对较小的数据集上——我们之前已经展示过这足以调整模型的风格——性能更符合我们的预期。G1a 完成作业的时间略超过 50 分钟，而 Spark 则在大约 20 分钟内完成。

对于使用更大数据库或 LoRA 排序的更大微调作业，这可能会轻松延长到数小时甚至数天，使得 Spark 的性能优势更加显著。

但正如我们在多批次推理测试中讨论的那样，除非你定期微调模型，否则 Spark 的更高性能可能不值得比 HP、Minisforum、Framework 或其他迷你 PC 供应商的类似配置的 Strix Halo 系统支付更高的价格。

### 图像生成

Spark 的更高性能在图像和视频生成工作负载中确实给它带来了明显的优势。与微调一样，图像生成是一个特别需要计算和内存的工作负载，但通常不受带宽限制。

这部分是因为图像模型不像 LLM 那样容易压缩，而不对输出质量做出重大让步。因此，许多人更喜欢以其原生精度运行这些模型，无论是 FP32、BF16 还是 FP8。

在 ComfyUI 中运行 Black Forest Lab 的 FLUX.1 Dev，我们的测试系统几乎完全按照其 16 位浮点性能的预期进行扩展。

Spark 分别具有 120 和 125 teraFLOPS 的 BF16 性能，大致与 AMD 的 Radeon Pro W7900 相匹配，同时在我们的测试中，Strix Halo 基于 G1a 的性能约为 46 teraFLOPS，Spark 领先约 2.5 倍。

可以说，图像生成显然不是 Strix 盒子的强项。

### 那 NPU 呢？

AMD 的 Strix Halo APU 还配备了相当强大的神经处理单元（NPU），得益于该公司收购的 Xilinx。XDNA 2 NPU 能够提供额外的 50 TOPS 的 AI 性能。当然，关键是找到能够利用它的软件。大多数 NPU 的使用案例集中在减少音频和视频中的噪声消除、背景模糊和光学字符识别等方面的功耗。

然而，AMD 和其他公司已经开始将 NPU 用于生成 AI 应用，结果喜忧参半。得益于像 Lemonade Server 这样的应用程序，你现在可以完全在 NPU 上运行 LLM。除非你试图节省电力，否则你可能还不想这样做。

截至目前，模型支持仍然有限，似乎 NPU 并没有访问 GPU 的 250 GB/s 的所有内存带宽。在 Windows 上运行 Mistral 7B 时，我们观察到的解码性能仅为 4-5 tok/s，而我们本希望看到接近 40 tok/s 的表现。

然而，AMD 显然在推动分离推理的概念，即将计算密集型的提示处理卸载到 NPU，而将内存带宽密集型的解码阶段交给 GPU 处理。性能有所改善，但仍然不如直接在 GPU 上运行模型的效果好。

这种分离的方法对于电源受限的笔记本电脑非常有意义，但对于像 G1a 这样的台式系统则不然。话虽如此，我们很想看看 AMD 将如何发展这一点。

我们还能够在 Amuse 中使 NPU 工作，这是一个适合初学者的图像生成套件。AMD 最近添加了对直接在 NPU 上运行 Stable Diffusion 3 的支持，在这种情况下，性能实际上比在 GPU 上运行同一模型要好得多。

在 NPU 上运行时，Amuse 能够在略超过一分钟的时间内使用 20 步生成一个 1,024 x 1,024 的图像，而在 GPU 上运行同样的测试大约需要两倍的时间。

有一些值得指出的注意事项。目前的集成非常有限，仅在初学者模式下可用，性能滑块设置为平衡。切换到 “专家模式” 会禁用 NPU，迫使模型在图形处理器上运行。

集成也仅限于 Stable Diffusion 3，该版本自发布以来已经有一年多，显得有些过时。不过，看到更多应用利用 NPU 进行视频通话中的背景模糊，还是令人欣慰的。

### Nvidia 的 CUDA 护城河正在变浅

在任何关于 AMD 和 Nvidia 的比较中，软件兼容性，即 CUDA 护城河，常常是一个卖点。

虽然你可以期待几乎所有运行在 CUDA 上的软件在 Spark 上都能正常工作，但在基于 Strix Halo 的 G1a 上并不能保证。

近二十年的 CUDA 开发是难以忽视的，但尽管 AMD 在其 ROCm 和 HIP 库的软件支持上传统上落后，近年来该公司在这方面取得了显著进展。

一年前，我们在使用一些库时遇到了许多麻烦，这些库要么不可用，要么依赖于专门为 AMD 的 CDNA 数据中心芯片构建的分支，这意味着它们无法在消费平台上运行。今天，这个问题已经不再那么严重。事实上，我们的大多数 PyTorch 测试脚本在 AMD 平台上无需修改就能运行。然而，如果我们说体验与 Spark 上的无缝体验相近，那就是在撒谎。

许多软件可以在 AMD 的消费硬件上运行，但并不总是像运行`pip install xyz-package`那么简单。我们仍然需要从源代码构建库，或者在几次情况下使用专门为 Radeon GPU 制作的分支——vLLM、BitsandBytes 和 Flash Attention 2 只是几个例子。

在许多情况下，特别是在处理更接近硬件的软件时，软件需要专门为该代 Radeon 图形编译。Llama.cpp 就是一个例子，我们需要针对`gfx1151`目标进行编译才能使软件运行。

处理这些依赖关系并不容易，无论你使用哪个平台，因此看到 AMD 和 Nvidia 提供预配置的 Docker 容器以便于开始使用，还是令人欣慰的。在我们的 vLLM 测试中，我们使用了红队和绿队的 vLLM Docker 容器，以确保获得最佳性能。

也许我们最大的挑战并不是软件相关的。Strix Halo 基于 AMD 较旧的 RDNA 3.5 架构，这意味着它缺乏对 Spark 的 Blackwell GPU 提供的许多低精度数据类型的支持。因此，我们经常被迫以 16 位精度运行模型，即使 FP8 或 FP4 会更理想。

AMD 的 RDNA 4 架构应该通过增加对稀疏性和 FP8 的支持来解决一些问题。然而，行业现在正在重新调整，围绕微缩数据类型（如 MXFP4）进行，因为它们具有更小的内存占用和更广泛的有效范围。

尽管 AMD 正在迅速缩小差距，但 Nvidia 在硬件和软件方面仍然保持着显著的领先。

### 你们一直在等待的答案

我们知道你们都会问。是的，这两台机器都能运行 Crysis。

在 1440p 中等设置下，Crysis Remastered 在 G1a 上以非常可观的 90-100 FPS 运行。这里没有真正的惊喜，因为 HP 使用的是来自一家拥有悠久图形历史的公司的 x86 CPU 和 GPU。

在 DGX Spark 上运行游戏稍微复杂一些，因为 GB10 的 Arm CPU 不支持 32 位指令。幸运的是，我们能够使用一个叫做 FEX 的工具让它运行。如果你感兴趣，可以在这里找到我们使用的安装脚本。

不幸的是，我们无法在 Spark 上让 Steam 性能覆盖工作，这意味着我们无法获得具体的性能指标。在中等设置下，即使不使用 Nvidia 的 AI 超分辨率技术，游戏也完全可以玩，实际上在游戏中是有效的。

虽然你可以在 Spark 或其他 GB10 系统上运行游戏，但我们不确定是否会推荐它超过 Strix Halo 盒子或其他许多更便宜的游戏 PC。

### 总结

这些系统哪个适合你，实际上取决于你是否想要一台专门用于 AI 的机器，还是一台恰好能够运行你可能投入的绝大多数 AI 工作负载的 PC。

我们怀疑许多到这里的人可能更倾向于后者。如果你打算花费 2000 到 4000 美元购买一台新 PC，我们认为期望它能做得比一件事更好并不算过分。

-   AMD 通过 Helios 机架系统向 Nvidia 发起 AI 挑战
-   AMD 因随机数错误而面临尴尬，导致加密安全性受损
-   AMD Ryzen CPU 在重负载下烧毁两次，GMP 表示
-   AMD 警告新一轮类似 Meltdown 和 Spectre 的漏洞影响 CPU

在这方面，HP 的 Z2 Mini G1a 是市场上更好的选择之一，特别是如果你主要对运行单批次 LLM 推理感兴趣，而不是微调或图像生成。AMD 的 Strix Halo SoC 可能没有 Nvidia 的 GB10 盒子的计算能力，但它能够胜任 Windows 和 Linux，并且不需要通过复杂的步骤才能玩你最喜欢的游戏。

尽管存在性能差距，但对于为不断增长的 AI PC 领域构建应用程序的软件工程师来说，基于 AMD 的系统仍然可能是更好的开发平台，至少因为微软的 NPU 要求。

但对于那些真正想要用于原型代理、微调模型或生成文本、图像和视频内容的 AI 设备的人来说，Spark 或其 GB10 兄弟可能是更好的选择，前提是你能接受其要价。

在我们的测试中，该机器的性能始终是基于 AMD 的 HP 系统的 2-3 倍，同时还受益于一个更加成熟和活跃的软件生态系统。正如我们所展示的，您也可以在紧急情况下在 Spark 上运行非 AI 工作负载，但这并不是它的设计初衷。Spark 的核心是一个集成的 AI 实验室，最好作为这样的用途使用。®

### 相关股票

- [AMD.US](https://longbridge.com/zh-CN/quote/AMD.US.md)
- [NVDA.US](https://longbridge.com/zh-CN/quote/NVDA.US.md)

## 相关资讯与研究

- [期权热点｜周二 AMD 涨 3%，部分看涨期权飙升 400%](https://longbridge.com/zh-CN/news/282781714.md)
- [新股前瞻 | 玛冀电子的 AB 面：打入英伟达、高通、AMD 供应链的荣耀，与持续亏损的现实](https://longbridge.com/zh-CN/news/282791969.md)
- [AI 时代，普通人如何自救？](https://longbridge.com/zh-CN/news/282615655.md)
- [知名记者爆苹果或年底发布 AI 眼镜 产业链人士：项目高度保密](https://longbridge.com/zh-CN/news/282528056.md)
- [现在让小孩学 AI 属于有病？](https://longbridge.com/zh-CN/news/282670516.md)