---
title: "亞馬遜計劃將 Nvidia 的 NVLink 技術整合到其第四代 Trainium 加速器中"
type: "News"
locale: "zh-HK"
url: "https://longbridge.com/zh-HK/news/268292872.md"
description: "亞馬遜正在將英偉達的 NVLink Fusion 集成到其 Trainium4 加速器中，承諾提供 6 倍的性能提升。這標誌着技術的重大進步，允許在英偉達的 MGX 機架之間實現無縫通信。Trainium3 UltraServers 現已上市，配備 144 個芯片，具有增強的內存帶寬和性能。亞馬遜的目標是支持多達一百萬個加速器，與英偉達的系統競爭。儘管技術有所進步，一些客户仍然忠於英偉達，這促使亞馬遜提供基於英偉達技術的新計算選項"
datetime: "2025-12-02T16:05:56.000Z"
locales:
  - [zh-CN](https://longbridge.com/zh-CN/news/268292872.md)
  - [en](https://longbridge.com/en/news/268292872.md)
  - [zh-HK](https://longbridge.com/zh-HK/news/268292872.md)
---

# 亞馬遜計劃將 Nvidia 的 NVLink 技術整合到其第四代 Trainium 加速器中

Re:Invent 亞馬遜表示，其下一代自家研發的硅芯片將憑藉其夥伴 Nvidia 的幫助實現 6 倍的性能提升。

在週二於拉斯維加斯舉行的 Re:Invent 大會上，亞馬遜網絡服務（AWS）預告了其 Trainium4 加速器，這將是首批採用 Nvidia 的 NVLink Fusion 互連技術進行芯片間通信的產品之一。

NVLink 是一種高速互連技術，允許跨多個系統的多個 GPU 共享資源並表現得像一個單一的加速器。此前，這項技術僅限於 Nvidia 的 CPU 和 GPU，但在 5 月，人工智能基礎設施巨頭宣佈將在 Computex 上推出 NVLink Fusion，向其他廠商開放該技術。

亞馬遜聲稱，這項技術將使其 Trainium4 加速器、Graviton CPU 和 EFA 網絡技術能夠在 Nvidia 的 MGX 機架上無縫通信。

在當前形式下，Nvidia 的第五代 NVLink 結構支持每個 GPU 高達 1.8 TB/s 的帶寬（每個方向 900 GB/s），但該公司計劃在明年將其翻倍至 3.6 TB/s。

除了 Nvidia 的互連技術，其他細節則相對模糊。我們被告知，新芯片在 FP8 下將提供 3 倍的 FLOPS，在 FP4 下將提供 6 倍的性能，並且內存帶寬將提升 4 倍。亞馬遜尚未説明這些聲明是針對單個芯片還是其 UltraServer 機架系統。

假設這是針對機架系統，就像 Trainium3 的情況一樣，這表明 AWS 的 Trainium4 UltraServers 可能提供超過 2 exaFLOPS 的密集 FP4 性能和每秒 2.8 PB 的內存帶寬。

後者對於帶寬受限的推理工作負載來説可能是一個重大利好。儘管命名方式相當混亂，AWS 實際上在內部和外部的訓練和推理中都使用 Trainium。

當然，細節決定成敗，而我們目前還沒有全部信息。亞馬遜去年此時對其 Trainium3 UltraServers 也做出了類似的聲明，聲稱其計算能力比 Trainium2 機架提升了 4.4 倍。但雖然從技術上講是正確的，我們當時並不知道大約一半的性能是通過將芯片數量從 64 增加到 144 實現的。

### Trainium3 在 EC2 上推出

説到 Trainium3，在首次預告這些芯片一年後，亞馬遜終於準備將其第三代 Trainium 加速器推向市場。

根據 AWS 的説法，每個芯片配備 144 GB 的 HBM3E 內存，提供 4.9 TB/s 的內存帶寬，並能夠產生超過 2.5 petaFLOPS 的密集 FP8 性能。

然而，對於受益於稀疏性的工作，如訓練，這些芯片的性能更為強大。Trainium3 具有 16:4 的結構稀疏性，這有效地將芯片的性能提升至 10 petaFLOPS，適用於支持的工作負載。

亞馬遜的 Trainium3 UltraServers 將 144 個這些芯片通過其 NeuronSwitch-v1 互連技術連接在一起，採用全互連結構，亞馬遜表示這提供了兩倍的芯片間帶寬。

-   AWS 和 Google 為他們所稱不存在的多雲障礙構建解決方案
-   AWS 構建 DNS 後備，以便在其臭名昭著的不穩定的美國東部地區出現問題時進行更改
-   Perplexity 展示如何在老舊的 GPU 和 AWS 網絡上更高效地運行大型 AI 模型
-   AWS：你好，年輕人？請在 Fortnite 中觀看我們的主題演講

這與亞馬遜的 Trainium2 UltraServers 有顯著變化，後者配備 64 個加速器，排列成 4x4x4 的 3D 環形拓撲。

亞馬遜拒絕評論 144 個 Trainium3 加速器是如何相互連接的，但如果我們必須猜測，它可能類似於 Nvidia 的 NVL72 或 AMD 的 Helios 機架系統中使用的平面交換拓撲。

這樣的舉措應該會簡化向 NVLink Fusion 下一代的過渡，但使 Google 成為在大規模 AI 訓練和推理集羣中仍在使用網狀拓撲的少數芯片設計師之一。

無論如何，亞馬遜似乎對其新的互連技術和 EFA 網絡充滿信心，認為這將使其支持包含多達一百萬個加速器的生產部署，而相比之下，Project Rainier 中的 Trainium2 芯片數量為 500,000。

綜合來看，每個 Trainium3 UltraServer 配備 20.7 TB 的 HBM3E、706 TB/s 的內存帶寬，以及根據工作負載是否受益於稀疏性而在 363 到 1,452 petaFLOPS 之間的性能。

這使得這些系統在性能上大致與 Nvidia 最新的基於 Blackwell Ultra 的 GB300 NVL72 系統相當——至少在 FP8 下。在 FP4 下，差距顯著擴大，Nvidia 系統的性能超過 3 倍。

儘管如此，FP4 仍主要用於推理，而 BF16 和 FP8 等更高精度的數據類型更適合用於訓練。

儘管 Trainium 在性能上取得了進展，但一些客户仍然不準備放棄 Nvidia。因此，亞馬遜還宣佈推出基於 Nvidia 的 GB300 NVL72 的新計算產品，這些產品將加入公司現有的 GB200 實例。 ®

### 相關股票

- [AMZN.US](https://longbridge.com/zh-HK/quote/AMZN.US.md)

## 相關資訊與研究

- [BUZZ-王國控股因披露SpaceX持股股價跳漲，公允價值達68.3億美元](https://longbridge.com/zh-HK/news/289683271.md)
- [ETAFX 在行業專家 Ken C 的帶領下加速全球擴張](https://longbridge.com/zh-HK/news/289683200.md)
- [ETAFX 在 Ken C 的領導下加速全球擴張，以推動其增長](https://longbridge.com/zh-HK/news/289682477.md)
- [由於發生肉毒桿菌中毒導致住院的事件，家長被敦促停止使用嬰兒配方奶粉](https://longbridge.com/zh-HK/news/289682413.md)
- [消息人士稱，卡塔爾談判代表飛抵德黑蘭，力求敲定結束美伊戰爭的協議](https://longbridge.com/zh-HK/news/289681914.md)