--- title: "亞馬遜計劃將 Nvidia 的 NVLink 技術整合到其第四代 Trainium 加速器中" type: "News" locale: "zh-HK" url: "https://longbridge.com/zh-HK/news/268292872.md" description: "亞馬遜正在將英偉達的 NVLink Fusion 集成到其 Trainium4 加速器中,承諾提供 6 倍的性能提升。這標誌着技術的重大進步,允許在英偉達的 MGX 機架之間實現無縫通信。Trainium3 UltraServers 現已上市,配備 144 個芯片,具有增強的內存帶寬和性能。亞馬遜的目標是支持多達一百萬個加速器,與英偉達的系統競爭。儘管技術有所進步,一些客户仍然忠於英偉達,這促使亞馬遜提供基於英偉達技術的新計算選項" datetime: "2025-12-02T16:05:56.000Z" locales: - [zh-CN](https://longbridge.com/zh-CN/news/268292872.md) - [en](https://longbridge.com/en/news/268292872.md) - [zh-HK](https://longbridge.com/zh-HK/news/268292872.md) --- # 亞馬遜計劃將 Nvidia 的 NVLink 技術整合到其第四代 Trainium 加速器中 Re:Invent 亞馬遜表示,其下一代自家研發的硅芯片將憑藉其夥伴 Nvidia 的幫助實現 6 倍的性能提升。 在週二於拉斯維加斯舉行的 Re:Invent 大會上,亞馬遜網絡服務(AWS)預告了其 Trainium4 加速器,這將是首批採用 Nvidia 的 NVLink Fusion 互連技術進行芯片間通信的產品之一。 NVLink 是一種高速互連技術,允許跨多個系統的多個 GPU 共享資源並表現得像一個單一的加速器。此前,這項技術僅限於 Nvidia 的 CPU 和 GPU,但在 5 月,人工智能基礎設施巨頭宣佈將在 Computex 上推出 NVLink Fusion,向其他廠商開放該技術。 亞馬遜聲稱,這項技術將使其 Trainium4 加速器、Graviton CPU 和 EFA 網絡技術能夠在 Nvidia 的 MGX 機架上無縫通信。 在當前形式下,Nvidia 的第五代 NVLink 結構支持每個 GPU 高達 1.8 TB/s 的帶寬(每個方向 900 GB/s),但該公司計劃在明年將其翻倍至 3.6 TB/s。 除了 Nvidia 的互連技術,其他細節則相對模糊。我們被告知,新芯片在 FP8 下將提供 3 倍的 FLOPS,在 FP4 下將提供 6 倍的性能,並且內存帶寬將提升 4 倍。亞馬遜尚未説明這些聲明是針對單個芯片還是其 UltraServer 機架系統。 假設這是針對機架系統,就像 Trainium3 的情況一樣,這表明 AWS 的 Trainium4 UltraServers 可能提供超過 2 exaFLOPS 的密集 FP4 性能和每秒 2.8 PB 的內存帶寬。 後者對於帶寬受限的推理工作負載來説可能是一個重大利好。儘管命名方式相當混亂,AWS 實際上在內部和外部的訓練和推理中都使用 Trainium。 當然,細節決定成敗,而我們目前還沒有全部信息。亞馬遜去年此時對其 Trainium3 UltraServers 也做出了類似的聲明,聲稱其計算能力比 Trainium2 機架提升了 4.4 倍。但雖然從技術上講是正確的,我們當時並不知道大約一半的性能是通過將芯片數量從 64 增加到 144 實現的。 ### Trainium3 在 EC2 上推出 説到 Trainium3,在首次預告這些芯片一年後,亞馬遜終於準備將其第三代 Trainium 加速器推向市場。 根據 AWS 的説法,每個芯片配備 144 GB 的 HBM3E 內存,提供 4.9 TB/s 的內存帶寬,並能夠產生超過 2.5 petaFLOPS 的密集 FP8 性能。 然而,對於受益於稀疏性的工作,如訓練,這些芯片的性能更為強大。Trainium3 具有 16:4 的結構稀疏性,這有效地將芯片的性能提升至 10 petaFLOPS,適用於支持的工作負載。 亞馬遜的 Trainium3 UltraServers 將 144 個這些芯片通過其 NeuronSwitch-v1 互連技術連接在一起,採用全互連結構,亞馬遜表示這提供了兩倍的芯片間帶寬。 - AWS 和 Google 為他們所稱不存在的多雲障礙構建解決方案 - AWS 構建 DNS 後備,以便在其臭名昭著的不穩定的美國東部地區出現問題時進行更改 - Perplexity 展示如何在老舊的 GPU 和 AWS 網絡上更高效地運行大型 AI 模型 - AWS:你好,年輕人?請在 Fortnite 中觀看我們的主題演講 這與亞馬遜的 Trainium2 UltraServers 有顯著變化,後者配備 64 個加速器,排列成 4x4x4 的 3D 環形拓撲。 亞馬遜拒絕評論 144 個 Trainium3 加速器是如何相互連接的,但如果我們必須猜測,它可能類似於 Nvidia 的 NVL72 或 AMD 的 Helios 機架系統中使用的平面交換拓撲。 這樣的舉措應該會簡化向 NVLink Fusion 下一代的過渡,但使 Google 成為在大規模 AI 訓練和推理集羣中仍在使用網狀拓撲的少數芯片設計師之一。 無論如何,亞馬遜似乎對其新的互連技術和 EFA 網絡充滿信心,認為這將使其支持包含多達一百萬個加速器的生產部署,而相比之下,Project Rainier 中的 Trainium2 芯片數量為 500,000。 綜合來看,每個 Trainium3 UltraServer 配備 20.7 TB 的 HBM3E、706 TB/s 的內存帶寬,以及根據工作負載是否受益於稀疏性而在 363 到 1,452 petaFLOPS 之間的性能。 這使得這些系統在性能上大致與 Nvidia 最新的基於 Blackwell Ultra 的 GB300 NVL72 系統相當——至少在 FP8 下。在 FP4 下,差距顯著擴大,Nvidia 系統的性能超過 3 倍。 儘管如此,FP4 仍主要用於推理,而 BF16 和 FP8 等更高精度的數據類型更適合用於訓練。 儘管 Trainium 在性能上取得了進展,但一些客户仍然不準備放棄 Nvidia。因此,亞馬遜還宣佈推出基於 Nvidia 的 GB300 NVL72 的新計算產品,這些產品將加入公司現有的 GB200 實例。 ® ### 相關股票 - [AMZN.US](https://longbridge.com/zh-HK/quote/AMZN.US.md) ## 相關資訊與研究 - [《外資精點》美銀首予 MiniMax「買入」評級,目標價 500 元](https://longbridge.com/zh-HK/news/289722775.md) - [大行報告丨摩通降稀宇科技評級 大降目標價逾 60%](https://longbridge.com/zh-HK/news/289716428.md) - [《外資精點》美銀首予智譜「買入」評級,目標價 1250 元](https://longbridge.com/zh-HK/news/289723086.md) - [美伊協議引爆市場!風險資產、美債齊漲,分析師預警風險仍存](https://longbridge.com/zh-HK/news/289723877.md) - [七天市值翻倍,聯想憑什麼?](https://longbridge.com/zh-HK/news/289719221.md)