---
title: "亚马逊计划将 Nvidia 的 NVLink 技术整合到其第四代 Trainium 加速器中"
type: "News"
locale: "zh-CN"
url: "https://longbridge.com/zh-CN/news/268292872.md"
description: "亚马逊正在将英伟达的 NVLink Fusion 集成到其 Trainium4 加速器中，承诺提供 6 倍的性能提升。这标志着技术的重大进步，允许在英伟达的 MGX 机架之间实现无缝通信。Trainium3 UltraServers 现已上市，配备 144 个芯片，具有增强的内存带宽和性能。亚马逊的目标是支持多达一百万个加速器，与英伟达的系统竞争。尽管技术有所进步，一些客户仍然忠于英伟达，这促使亚马逊提供基于英伟达技术的新计算选项"
datetime: "2025-12-02T16:05:56.000Z"
locales:
  - [zh-CN](https://longbridge.com/zh-CN/news/268292872.md)
  - [en](https://longbridge.com/en/news/268292872.md)
  - [zh-HK](https://longbridge.com/zh-HK/news/268292872.md)
---

# 亚马逊计划将 Nvidia 的 NVLink 技术整合到其第四代 Trainium 加速器中

Re:Invent 亚马逊表示，其下一代自家研发的硅芯片将凭借其伙伴 Nvidia 的帮助实现 6 倍的性能提升。

在周二于拉斯维加斯举行的 Re:Invent 大会上，亚马逊网络服务（AWS）预告了其 Trainium4 加速器，这将是首批采用 Nvidia 的 NVLink Fusion 互连技术进行芯片间通信的产品之一。

NVLink 是一种高速互连技术，允许跨多个系统的多个 GPU 共享资源并表现得像一个单一的加速器。此前，这项技术仅限于 Nvidia 的 CPU 和 GPU，但在 5 月，人工智能基础设施巨头宣布将在 Computex 上推出 NVLink Fusion，向其他厂商开放该技术。

亚马逊声称，这项技术将使其 Trainium4 加速器、Graviton CPU 和 EFA 网络技术能够在 Nvidia 的 MGX 机架上无缝通信。

在当前形式下，Nvidia 的第五代 NVLink 结构支持每个 GPU 高达 1.8 TB/s 的带宽（每个方向 900 GB/s），但该公司计划在明年将其翻倍至 3.6 TB/s。

除了 Nvidia 的互连技术，其他细节则相对模糊。我们被告知，新芯片在 FP8 下将提供 3 倍的 FLOPS，在 FP4 下将提供 6 倍的性能，并且内存带宽将提升 4 倍。亚马逊尚未说明这些声明是针对单个芯片还是其 UltraServer 机架系统。

假设这是针对机架系统，就像 Trainium3 的情况一样，这表明 AWS 的 Trainium4 UltraServers 可能提供超过 2 exaFLOPS 的密集 FP4 性能和每秒 2.8 PB 的内存带宽。

后者对于带宽受限的推理工作负载来说可能是一个重大利好。尽管命名方式相当混乱，AWS 实际上在内部和外部的训练和推理中都使用 Trainium。

当然，细节决定成败，而我们目前还没有全部信息。亚马逊去年此时对其 Trainium3 UltraServers 也做出了类似的声明，声称其计算能力比 Trainium2 机架提升了 4.4 倍。但虽然从技术上讲是正确的，我们当时并不知道大约一半的性能是通过将芯片数量从 64 增加到 144 实现的。

### Trainium3 在 EC2 上推出

说到 Trainium3，在首次预告这些芯片一年后，亚马逊终于准备将其第三代 Trainium 加速器推向市场。

根据 AWS 的说法，每个芯片配备 144 GB 的 HBM3E 内存，提供 4.9 TB/s 的内存带宽，并能够产生超过 2.5 petaFLOPS 的密集 FP8 性能。

然而，对于受益于稀疏性的工作，如训练，这些芯片的性能更为强大。Trainium3 具有 16:4 的结构稀疏性，这有效地将芯片的性能提升至 10 petaFLOPS，适用于支持的工作负载。

亚马逊的 Trainium3 UltraServers 将 144 个这些芯片通过其 NeuronSwitch-v1 互连技术连接在一起，采用全互连结构，亚马逊表示这提供了两倍的芯片间带宽。

-   AWS 和 Google 为他们所称不存在的多云障碍构建解决方案
-   AWS 构建 DNS 后备，以便在其臭名昭著的不稳定的美国东部地区出现问题时进行更改
-   Perplexity 展示如何在老旧的 GPU 和 AWS 网络上更高效地运行大型 AI 模型
-   AWS：你好，年轻人？请在 Fortnite 中观看我们的主题演讲

这与亚马逊的 Trainium2 UltraServers 有显著变化，后者配备 64 个加速器，排列成 4x4x4 的 3D 环形拓扑。

亚马逊拒绝评论 144 个 Trainium3 加速器是如何相互连接的，但如果我们必须猜测，它可能类似于 Nvidia 的 NVL72 或 AMD 的 Helios 机架系统中使用的平面交换拓扑。

这样的举措应该会简化向 NVLink Fusion 下一代的过渡，但使 Google 成为在大规模 AI 训练和推理集群中仍在使用网状拓扑的少数芯片设计师之一。

无论如何，亚马逊似乎对其新的互连技术和 EFA 网络充满信心，认为这将使其支持包含多达一百万个加速器的生产部署，而相比之下，Project Rainier 中的 Trainium2 芯片数量为 500,000。

综合来看，每个 Trainium3 UltraServer 配备 20.7 TB 的 HBM3E、706 TB/s 的内存带宽，以及根据工作负载是否受益于稀疏性而在 363 到 1,452 petaFLOPS 之间的性能。

这使得这些系统在性能上大致与 Nvidia 最新的基于 Blackwell Ultra 的 GB300 NVL72 系统相当——至少在 FP8 下。在 FP4 下，差距显著扩大，Nvidia 系统的性能超过 3 倍。

尽管如此，FP4 仍主要用于推理，而 BF16 和 FP8 等更高精度的数据类型更适合用于训练。

尽管 Trainium 在性能上取得了进展，但一些客户仍然不准备放弃 Nvidia。因此，亚马逊还宣布推出基于 Nvidia 的 GB300 NVL72 的新计算产品，这些产品将加入公司现有的 GB200 实例。 ®

### 相关股票

- [AMZN.US](https://longbridge.com/zh-CN/quote/AMZN.US.md)

## 相关资讯与研究

- [理解市场 | 优必选再涨超 7% 优必选 U1 人形机器人预售破 3800 台 预计将于 6 月 30 日上市](https://longbridge.com/zh-CN/news/289722030.md)
- [美伊协议引爆市场！风险资产、美债齐涨，分析师预警风险仍存](https://longbridge.com/zh-CN/news/289723877.md)
- [超级 IPO、超级增发不断！天量融资之下，美股 “核心亮点之一” 已经没了](https://longbridge.com/zh-CN/news/289711536.md)
- [七天市值翻倍，联想凭什么？](https://longbridge.com/zh-CN/news/289719221.md)
- [智谱已推出最新一代旗舰模型 GLM-5.2 搭载 1M 长上下文](https://longbridge.com/zh-CN/news/289729471.md)