--- title: "亚马逊计划将 Nvidia 的 NVLink 技术整合到其第四代 Trainium 加速器中" type: "News" locale: "zh-CN" url: "https://longbridge.com/zh-CN/news/268292872.md" description: "亚马逊正在将英伟达的 NVLink Fusion 集成到其 Trainium4 加速器中,承诺提供 6 倍的性能提升。这标志着技术的重大进步,允许在英伟达的 MGX 机架之间实现无缝通信。Trainium3 UltraServers 现已上市,配备 144 个芯片,具有增强的内存带宽和性能。亚马逊的目标是支持多达一百万个加速器,与英伟达的系统竞争。尽管技术有所进步,一些客户仍然忠于英伟达,这促使亚马逊提供基于英伟达技术的新计算选项" datetime: "2025-12-02T16:05:56.000Z" locales: - [zh-CN](https://longbridge.com/zh-CN/news/268292872.md) - [en](https://longbridge.com/en/news/268292872.md) - [zh-HK](https://longbridge.com/zh-HK/news/268292872.md) --- # 亚马逊计划将 Nvidia 的 NVLink 技术整合到其第四代 Trainium 加速器中 Re:Invent 亚马逊表示,其下一代自家研发的硅芯片将凭借其伙伴 Nvidia 的帮助实现 6 倍的性能提升。 在周二于拉斯维加斯举行的 Re:Invent 大会上,亚马逊网络服务(AWS)预告了其 Trainium4 加速器,这将是首批采用 Nvidia 的 NVLink Fusion 互连技术进行芯片间通信的产品之一。 NVLink 是一种高速互连技术,允许跨多个系统的多个 GPU 共享资源并表现得像一个单一的加速器。此前,这项技术仅限于 Nvidia 的 CPU 和 GPU,但在 5 月,人工智能基础设施巨头宣布将在 Computex 上推出 NVLink Fusion,向其他厂商开放该技术。 亚马逊声称,这项技术将使其 Trainium4 加速器、Graviton CPU 和 EFA 网络技术能够在 Nvidia 的 MGX 机架上无缝通信。 在当前形式下,Nvidia 的第五代 NVLink 结构支持每个 GPU 高达 1.8 TB/s 的带宽(每个方向 900 GB/s),但该公司计划在明年将其翻倍至 3.6 TB/s。 除了 Nvidia 的互连技术,其他细节则相对模糊。我们被告知,新芯片在 FP8 下将提供 3 倍的 FLOPS,在 FP4 下将提供 6 倍的性能,并且内存带宽将提升 4 倍。亚马逊尚未说明这些声明是针对单个芯片还是其 UltraServer 机架系统。 假设这是针对机架系统,就像 Trainium3 的情况一样,这表明 AWS 的 Trainium4 UltraServers 可能提供超过 2 exaFLOPS 的密集 FP4 性能和每秒 2.8 PB 的内存带宽。 后者对于带宽受限的推理工作负载来说可能是一个重大利好。尽管命名方式相当混乱,AWS 实际上在内部和外部的训练和推理中都使用 Trainium。 当然,细节决定成败,而我们目前还没有全部信息。亚马逊去年此时对其 Trainium3 UltraServers 也做出了类似的声明,声称其计算能力比 Trainium2 机架提升了 4.4 倍。但虽然从技术上讲是正确的,我们当时并不知道大约一半的性能是通过将芯片数量从 64 增加到 144 实现的。 ### Trainium3 在 EC2 上推出 说到 Trainium3,在首次预告这些芯片一年后,亚马逊终于准备将其第三代 Trainium 加速器推向市场。 根据 AWS 的说法,每个芯片配备 144 GB 的 HBM3E 内存,提供 4.9 TB/s 的内存带宽,并能够产生超过 2.5 petaFLOPS 的密集 FP8 性能。 然而,对于受益于稀疏性的工作,如训练,这些芯片的性能更为强大。Trainium3 具有 16:4 的结构稀疏性,这有效地将芯片的性能提升至 10 petaFLOPS,适用于支持的工作负载。 亚马逊的 Trainium3 UltraServers 将 144 个这些芯片通过其 NeuronSwitch-v1 互连技术连接在一起,采用全互连结构,亚马逊表示这提供了两倍的芯片间带宽。 - AWS 和 Google 为他们所称不存在的多云障碍构建解决方案 - AWS 构建 DNS 后备,以便在其臭名昭著的不稳定的美国东部地区出现问题时进行更改 - Perplexity 展示如何在老旧的 GPU 和 AWS 网络上更高效地运行大型 AI 模型 - AWS:你好,年轻人?请在 Fortnite 中观看我们的主题演讲 这与亚马逊的 Trainium2 UltraServers 有显著变化,后者配备 64 个加速器,排列成 4x4x4 的 3D 环形拓扑。 亚马逊拒绝评论 144 个 Trainium3 加速器是如何相互连接的,但如果我们必须猜测,它可能类似于 Nvidia 的 NVL72 或 AMD 的 Helios 机架系统中使用的平面交换拓扑。 这样的举措应该会简化向 NVLink Fusion 下一代的过渡,但使 Google 成为在大规模 AI 训练和推理集群中仍在使用网状拓扑的少数芯片设计师之一。 无论如何,亚马逊似乎对其新的互连技术和 EFA 网络充满信心,认为这将使其支持包含多达一百万个加速器的生产部署,而相比之下,Project Rainier 中的 Trainium2 芯片数量为 500,000。 综合来看,每个 Trainium3 UltraServer 配备 20.7 TB 的 HBM3E、706 TB/s 的内存带宽,以及根据工作负载是否受益于稀疏性而在 363 到 1,452 petaFLOPS 之间的性能。 这使得这些系统在性能上大致与 Nvidia 最新的基于 Blackwell Ultra 的 GB300 NVL72 系统相当——至少在 FP8 下。在 FP4 下,差距显著扩大,Nvidia 系统的性能超过 3 倍。 尽管如此,FP4 仍主要用于推理,而 BF16 和 FP8 等更高精度的数据类型更适合用于训练。 尽管 Trainium 在性能上取得了进展,但一些客户仍然不准备放弃 Nvidia。因此,亚马逊还宣布推出基于 Nvidia 的 GB300 NVL72 的新计算产品,这些产品将加入公司现有的 GB200 实例。 ® ### 相关股票 - [AMZN.US](https://longbridge.com/zh-CN/quote/AMZN.US.md) ## 相关资讯与研究 - [理解市场 | 优必选再涨超 7% 优必选 U1 人形机器人预售破 3800 台 预计将于 6 月 30 日上市](https://longbridge.com/zh-CN/news/289722030.md) - [美伊协议引爆市场!风险资产、美债齐涨,分析师预警风险仍存](https://longbridge.com/zh-CN/news/289723877.md) - [超级 IPO、超级增发不断!天量融资之下,美股 “核心亮点之一” 已经没了](https://longbridge.com/zh-CN/news/289711536.md) - [七天市值翻倍,联想凭什么?](https://longbridge.com/zh-CN/news/289719221.md) - [智谱已推出最新一代旗舰模型 GLM-5.2 搭载 1M 长上下文](https://longbridge.com/zh-CN/news/289729471.md)