作者:周源/華爾街見聞從行業的情況看,GenAI(生成式人工智能:Generative Artificial Intelligence)的核心要件有兩個:GPU 和 HBM,後者提供了當今可能的最高內存帶寬,而 GPU 的性能並非由主頻決定,而是受制於內存帶寬。GPU 領導公司英偉達在過去一年獲得了令人驚訝的市值增長速度,但英偉達所有 AI 加速卡仍不能缺少 HBM 公司的支持。三星半導體業務主管 Kyung Kye-hyun 説,“HBM 的領導地位正在向我們襲來。”帶寬的作用與容量直接相關,容量大而帶寬窄,就會影響 GPU 性能。目前,HBM 最高容量型號是三星在今年 2 月推出的 HBM3E 12H,堆棧數達到了 12 層。最近,三星電子在內存芯片部門內成立高帶寬內存(HBM)團隊,以提高產量。這是三星繼今年 1 月成立 HBM 特別工作組後,建立的第二個 HBM 專門團隊。2019 年,三星電子誤判 HBM 的市場前景,故而解散當時該公司的 HBM 團隊。現在,三星電子決心改正這個錯誤,對現在成立的 HBM 團隊寄予厚望:搶佔在 HBM 領域的領導地位。內存帶寬決定 AI 加速卡性能由 ChatGPT 和 Sora 帶來的 GenAI 應用需求正在改變世界。這刺激了 AI PC、AI 服務器、AI 手機和 AI 處理器的巨大需求。這些處理器中的大多數(包括 AMD 和英偉達的計算 GPU、英特爾的 Gaudi、AWS 的 Inferentia 和 Trainium 等專用處理器及 FPGA)都使用了 HBM,因為 HBM 提供了當前最高的內存帶寬。與 GDDR6/GDDR6X 或 LPDDR5/LPDDR5X 相比,HBM 在帶寬需求大的應用程序中如此受歡迎的原因,在於 HBM 每個堆棧的速度高達 1.2 TB/s,這是任何商業內存都達不到的帶寬速度。但如此優異的表現,代價就是成本過高,技術難度過大。HBM 現在實際上是先進封裝的結果,這限制了供應並增加了成本。用於 HBM 的 DRAM 設備,與用於商用內存(如 DDR4 和 DDR5)的典型 DRAM IC 完全不同。內存生產商必須製造 8 或 12 個 DRAM 設備並完成測試;之後,將之封裝在預先測試的高速邏輯層之上,接着再測試整個封裝。這個過程,既昂貴又漫長。用於 HBM 的 DRAM 設備,必須具有寬接口,因此其物理尺寸更大,故而比常規 DRAM IC 更昂貴。正因為如此,所以要滿足 AI 服務器的需求,同步增加 HBM 內存產量,將影響所有 DRAM 類型的供應規模。從物理結構看,HBM 成品是將很多個 DDR 芯片堆疊起來,再和 GPU 封裝在一起,實現大容量、高位寬的 DDR 組合陣列。HBM 在 AI 加速卡的物理結構中,處於左右兩側,由 DDR 顆粒堆疊而成,中間是 GPU。由於 HBM 的成本制約,故而給了 DDR、GDDR 和 LPDDR 等類型的商業內存一線生機。這些品類也被用於對高帶寬有需求的應用,像 AI、HPC、圖形和工作站。美光科技曾對外表示,那些在容量和帶寬方面有優化的商業內存的技術開發正在加速推進,因為 AI 硬件開發公司對之有明確需求。美光計算和網絡業務部高級經理 Krishna Yalamanchi 對 HBM 的看法看似多餘。“HBM 非常有應用前景,市場未來增長潛力巨大。” Yalamanchi 説,“目前,對 HBM 的應用主要集中在 AI、HPC(高性能計算)等需要高帶寬、高密度和低功耗的領域。隨着越來越多的處理器和平台採用 HBM,該市場預計將快速增長。”這在當下,這樣的看法並不有何新奇。但是這實際上代表了美光的看法,而美光是如假包換的行業巨頭,雖然排名在三星和海力士之後。據 Gartner 預測,對 HBM 的需求預計將從 2022 年的 1.23 億 GB,激增至 2027 年的 9.72 億 GB。這意味着 HBM 需求預計將從 2022 年佔 DRAM 整體的 0.5%,增加到 2027 年的 1.6%。如此規模的增長,主要是因為標準 AI 和生成 AI 應用中對 HBM 的需求在持續加速升級。Gartner 分析師認為,HBM 的整體市場規模將從 2022 年的 11 億美元增至 2027 年的 52 億美元,HBM 價格相對 2022 年的水平也將下降 40%。由於技術進步和 GenAI 的應用需求不斷膨脹,HBM 堆棧的密度也將隨之增加:從 2022 年的 16 GB 增加到 2027 年的 48GB。據美光預計,2026 年能推出 64GB HBM Next(HBM4,第六代)堆棧。HBM3(第四代)和 HBM4 規範允許構建 16-Hi 堆棧,因此可以使用 16 個 32GB 器件構建 64GB HBM 模塊。三星確立雙軌 AI 半導體戰略HBM 如此難做而如此昂貴,故而在 ChatGPT 問世之前,就連巨頭公司也出現了需求誤判。三星電子,目前在 HBM 領域市佔率位居第二,落後於 SK 海力士。這或許與三星電子在 2019 年誤判 HBM 技術需求前景有關。那年,三星電子 “竟然” 解散了其 HBM 業務和技術團隊。為了把同屬韓國的 “友商” SK 海力士拉下馬,稱霸 HBM 市場,三星電子於今年 1 月和 3 月先後成立兩個 HBM 團隊,部分成員來自設備解決方案部門,主要負責 DRAM 和 NAND 閃存的開發和銷售;領導人是三星執行副總裁兼 DRAM 產品和技術主管 Hwang Sang-joon。為了趕上並超越 SK 海力士,三星 HBM 團隊計劃於今年下半年量產 HBM3E,並於 2025 年生產後續型號 HBM4。值得注意的是,4 月 1 日,三星電子 DS 部門負責人慶桂顯宣佈,為提升在 AI 領域的競爭力,公司內部實施了雙軌 AI 半導體戰略,專注研發 AI 用存儲芯片和 AI 算力芯片的發展。HwangSang-joon 領導的 HBM 團隊,將同時加速 AI 推理芯片 Mach-2 的開發進程。慶桂顯指出,市場對 AI 推理芯片 Mach-1 的需求日益增長,部分客户已表達了使用 Mach 系列芯片處理超過 1000B 參數的大型模型推理的需求。這一趨勢促使三星電子加快下一代 Mach-2 芯片的研發步伐,以滿足市場對高效能 AI 芯片的迫切需求。Mach-1 目前正在開發中,預計今年年內將推出原型產品。這款芯片採用 SoC(片上系統)形式,用於 AI 推理加速,可減少 GPU 與 HBM 的瓶頸。Mach-1 是一種高能效 AI 推理芯片。三星電子計劃於 2024 年末、2025 年初投入應用,韓國 IT 巨頭 Naver 考慮大批量購入,交易金額有望達 1 萬億韓元(約合 7.41 億美元)。HBM3E 是 HBM3 的擴展版本,內存容量 144GB,提供每秒 1.5TB 的帶寬,相當於 1 秒能處理 230 部 5GB 大小的全高清電影。作為一種更快、更大的內存,HBM3E 可加速生成式 AI 和大型語言模型,同時能推進 HPC 工作負載的科學計算。2023 年 8 月 9 日,黃仁勳發佈 GH200 Grace Hopper 超級芯片,這是 HBM3E 的首次亮相。因此,GH200 Grace Hopper 成為全球首款 HBM3E GPU。目前,HBM3E 是 AI 應用中性能最佳的 DRAM,技術代際為五代。HBM 代際共分五代:首代為 HBM,第二代是 HBM2,HBM2E 屬於第三代,第四代則為 HMB3。據三星電子的半導體業務負責人 Kyung Kye-hyun(池慶賢),想要 HBM4 的客户正在與之做聯合開發定製,但他沒有透露合作方是哪家公司。慶桂顯則表示,多家客户有意與三星電子合作開發定製版的下一代 HBM4(第六代際)內存。3 月 26 日,在加利福尼亞州聖何塞舉行的全球芯片製造商聚會 Memcon 2024 上,三星電子預計,該公司今年的 HBM 存儲器產量將比 2023 年的產量增加 2.9 倍。