ChatGPT 的橫空出世,不但為行業指明瞭可行的 AI 技術落地方向,也掀起新一輪 AI 硬件技術比拼。但 AGI 和 LLM 通過 ChatGPT 帶動至今,尚無能和英偉達 GPU 正面對決的 AI 產品。 就像當年漢武帝那句 “寇能往,我亦能往” 名言,前有 AMD,後有英特爾,都用實際行動亮明瞭 “英偉達能做,我亦能做” 的態度。 7 月 11 日,英特爾以中國市場為目標,推出高端 AI 處理器 Habana Gaudi 2,支持加速 AI 訓練和推理任務。特別之處在於,這是一顆搭載在英特爾至強 CPU 之上的 AI 加速器。也就是説,這並不是 GPU。 Gaudi 2,給予了市場在 GPU 之外的新選擇。英特爾能否憑此,成功將英偉達拉下馬? 第二種選擇有哪些優點 Gaudi 2,在 2022 年 5 月已在海外發布。這次發佈了中國定製版,就像英偉達為中國市場推出專門的合規版 “A800” 和 “H800”。 Gaudi 2 由 Habana Labs 研發,這家公司成立於 2016 年,總部在以色列,是一家為數據中心提供可編程深度學習加速器的 AI 芯片創業公司。2019 年,Habana Labs 推出首代 Gaudi;當年 12 月,為其早期投資人英特爾以 20 億美元的代價收購。 目前,Habana Labs 共推出兩個系列的 AI 產品。其中,用於 AI 訓練的為 Gaudi(高迪)系列,而用於 AI 推理的則為 Goya(戈雅)系列。 此次英特爾為中國市場推出的是定製版 Gaudi 2,這也是 Habana Labs 設計的第二代 AI 硬件加速器。單個服務器包含 8 個加速器設備(HPU:Habana Processing Units),每個設備包含 96GB 內存;顯存容量為 96GB HBM2E,顯存帶寬高達 2.4TB/s。 英特爾執行副總裁、數據中心與人工智能事業部總經理 Sandra Rivera 沒有詳細介紹 Gaudi 2 的參數,但 “性價比” 得以被重點強調;同時,英特爾 Labs 首席運營官 Eitan Medina 還強調了 Gaudi 2 相對於國際版在百兆端口數量上雖有所減少,但 “從客户使用情況來看,預計影響會非常小”。 目前,就已知的信息看,浪潮信息已採用 Gaudi 2,已有支持 8 顆 Gaudi 2 深度學習加速器的新一代 AI 服務器 NF5698G7 落地。另據英特爾稱,紫光新華三、超聚變和百度智能雲也會成為 Gaudi 2 用户。 簡單説,Gaudi 2 深度學習加速器以首代 Gaudi 高性能架構為基礎,採用台積電 7nm 工藝,專為訓練大語言模型構建。 以 MLCommons MLPerf 基準測試(主流 AI 性能測試基準)看,Gaudi 2 整體性能高於英偉達 A100,但弱於英偉達 H100。運行 ResNet-50 的每瓦性能約是英偉達 A100 的 2 倍,運行 1760 億參數的 BLOOMZ 模型時,其每瓦性能約為 A100 的 1.6 倍。 MLPerf 每年做兩次測評。在今年 6 月的測評中,除了英偉達 H100,Gaudi 2 是唯一一套向 GPT-3 大模型訓練基準提交性能結果的解決方案。 除了適配 GPT 大模型(基於 Transformer 架構),在最近的 Hugging Face 評估中,Gaudi 2 在大規模推理方面的表現,包括運行 Stable Diffusion(高通端側模型)、70 億及 1760 億參數 BLOOMz 模型時,均有優異推理表現。 比如,與英偉達 A100 相比,在做 Stable Diffusion 模型推理時,Gaudi 2 加速器時延降低 2.21 倍。 可以説,Gaudi 2 雖然不能取代英偉達 H100,但英特爾為 LLM 推理和訓練提供了一個除 GPU 之外的 “CPU(至強)+ 加速器(Gaudi 2)” 的新方案。 原來,做 AGI 或 LLM 訓練和推理,並不限於用 GPU,也可以用 CPU 和 AI 加速器配合訓練。 Rivera 認為,實際上用户存在不同的產品需求:比如中小型模型用户,可選英特爾第四代至強(CPU)處理器(英特爾 AMX:高級矩陣擴展)作推理;若要做千億級新模型訓練,想要高等級算力,那麼也可採用 Gaudi。 在需要大規模業務部署時,Gaudi 2 能通過集羣橫向擴展獲得更線性的性能增長。 從 MLCommons 新公佈的 MLPerf 訓練 3.0 結果可以發現,Gaudi 2 在運行 1750 億參數的 GPT-3 模型時,當加速器數量從 256 個增加到 384 個時,能實現接近線性的 95% 的性能擴展效果。 英特爾可擴展至強是向 MLPerf 3.0 提交的眾多解決方案中,唯一的基於 CPU 通用處理器版本;支持 “開箱即用”,也就是説,可以在通用系統上部署 AI,以此提高易用性和降低成本。 看着美:豐滿和骨感之間 既然強調性價比,那麼 Gaudi 2 的目標,必然不會是頂尖的旗艦定位,而更注重 “跑量”。這就相當於智能手機的 “中高端” 類型,側重的是搶佔儘可能多的市場份額。 這種 “從中端入手” 的市場策略,已成為近年來英特爾的主要努力方向。 在這場生成式 AI 戰役中,英特爾結合了原本自身的 CPU 技術優勢,結合 AI 加速芯片,以第四代至強可擴展 CPU 芯片(英特爾 AMX:Advanced Matrix Extensions)疊加 Gaudi 2,在中端市場與英偉達展開角逐。 其中,英特爾 AMX 的 CPU AI 推理性能不容忽略;而 AMX 在 CPU AI 推理和訓練方面的能力,更成為英特爾結合其傳統技術優勢、推進強力競爭策略的底氣。 在 AI 推理工作負載中,AMX 的推理性能與英偉達 A100 GPU 相比超越 5 倍,與 AMD 的 64 核 EPYC CPU 相比可超 2 倍;在執行訓練工作時,AMX 的性能較英偉達 A100 GPU 有近 3 倍的性能提升,能在數秒或數分鐘內完成訓練,同時還能大幅降低用户成本。 英特爾公開展示了至強 Max 芯片運行 Stable Diffusion 模型的生成效果。Stable Diffusion 模型能以文生圖和以圖生圖,結果顯示,基於 AMX 芯片運行,該模型僅用 5.34 秒,就生成了一張圖像。 英特爾採用的以 “CPU+AI 加速器” 的產品組合為基礎的 AI 解決方案,用英特爾自己的話説,即 “為在封閉生態系統中,尋求擺脱當前效率與規模限制的客户,提供極具競爭力的選擇”。 在這個組合中,英特爾用兼具性能和每瓦能耗優勢的 Gaudi 2,做了用户細分需求的場景劃分,並強調了目前超越英偉達 A100 GPU、未來超越英偉達 H100 GPU 的性能、降低獲取 GPU 的時間成本、能耗等方面的高性價比標籤——什麼是性價比——性價比的核心標籤就是 “省錢”,以此在中高端市場侵蝕英偉達的市場份額。 易用性和與原有系統的絲滑過渡也是英特爾 AI 市場策略的一部分。 “開箱即用” 體現了易用性,Gaudi 2 的 SynapseAI 軟件套件集成了 PyTorch 和 TensorFlow 兩種常見深度學習框架,還包括 Megatron 和 DeepSpeed 等主流 LLM 訓練框架,這意味着開發者能做快速在不同硬件平台上做代碼遷移。 遷移速度有多快?10 分鐘,還包括閲讀文檔的時間。 從推出專門的中國版 Gaudi 2、採用 Gaudi 2 和兩顆 AMX 芯片的浪潮新一代 AI 服務器 NF5698G7 落地速度看,英特爾尤為重視中國市場。 英特爾的中國用户也表達了對英特爾 AI 產品的認可。浪潮信息高級副總裁、AI&HPC 產品線總經理劉軍宣稱,他們的算法工程師在實際體驗中國版 Gaudi 2 後認為,其使用體驗 “與 GPU 基本沒太大區別”。 沒有太大區別,不等於毫無區別。 華爾街見聞注意到,英特爾此次推出的中國版 Gaudi 2(也包括國際版在內),相對於英偉達 A100 的性能優勢,集中在基於 Residual(殘差)結構的 ResNet(殘差網絡)模型,而非 GPT 通用的 Transformer 架構的 AGI 模型,兩者存在較大區別。 因此中國版 Gaudi 2 市場接受度究竟如何,在豐滿和骨感之間,天平會側重哪一端,仍需要時間做出回答。