ChatGPT 的橫空出世，不但為行業指明瞭可行的 AI 技術落地方向，也掀起新一輪 AI 硬件技術比拼。但 AGI 和 LLM 通過 ChatGPT 帶動至今，尚無能和英偉達 GPU 正面對決的 AI 產品。
就像當年漢武帝那句 “寇能往，我亦能往” 名言，前有 AMD，後有英特爾，都用實際行動亮明瞭 “英偉達能做，我亦能做” 的態度。
7 月 11 日，英特爾以中國市場為目標，推出高端 AI 處理器 Habana Gaudi 2，支持加速 AI 訓練和推理任務。特別之處在於，這是一顆搭載在英特爾至強 CPU 之上的 AI 加速器。也就是説，這並不是 GPU。
Gaudi 2，給予了市場在 GPU 之外的新選擇。英特爾能否憑此，成功將英偉達拉下馬？
<h2>第二種選擇有哪些優點</h2>
Gaudi 2，在 2022 年 5 月已在海外發布。這次發佈了中國定製版，就像英偉達為中國市場推出專門的合規版 “A800” 和 “H800”。
Gaudi 2 由 Habana Labs 研發，這家公司成立於 2016 年，總部在以色列，是一家為數據中心提供可編程深度學習加速器的 AI 芯片創業公司。2019 年，Habana Labs 推出首代 Gaudi；當年 12 月，為其早期投資人英特爾以 20 億美元的代價收購。
目前，Habana Labs 共推出兩個系列的 AI 產品。其中，用於 AI 訓練的為 Gaudi（高迪）系列，而用於 AI 推理的則為 Goya（戈雅）系列。
此次英特爾為中國市場推出的是定製版 Gaudi 2，這也是 Habana Labs 設計的第二代 AI 硬件加速器。單個服務器包含 8 個加速器設備（HPU：Habana Processing Units），每個設備包含 96GB 內存；顯存容量為 96GB HBM2E，顯存帶寬高達 2.4TB/s。
英特爾執行副總裁、數據中心與人工智能事業部總經理 Sandra Rivera 沒有詳細介紹 Gaudi 2 的參數，但 “性價比” 得以被重點強調；同時，英特爾 Labs 首席運營官 Eitan Medina 還強調了 Gaudi 2 相對於國際版在百兆端口數量上雖有所減少，但 “從客户使用情況來看，預計影響會非常小”。
目前，就已知的信息看，浪潮信息已採用 Gaudi 2，已有支持 8 顆 Gaudi 2 深度學習加速器的新一代 AI 服務器 NF5698G7 落地。另據英特爾稱，紫光新華三、超聚變和百度智能雲也會成為 Gaudi 2 用户。
簡單説，Gaudi 2 深度學習加速器以首代 Gaudi 高性能架構為基礎，採用台積電 7nm 工藝，專為訓練大語言模型構建。
以 MLCommons MLPerf 基準測試（主流 AI 性能測試基準）看，Gaudi 2 整體性能高於英偉達 A100，但弱於英偉達 H100。運行 ResNet-50 的每瓦性能約是英偉達 A100 的 2 倍，運行 1760 億參數的 BLOOMZ 模型時，其每瓦性能約為 A100 的 1.6 倍。
MLPerf 每年做兩次測評。在今年 6 月的測評中，除了英偉達 H100，Gaudi 2 是唯一一套向 GPT-3 大模型訓練基準提交性能結果的解決方案。
除了適配 GPT 大模型（基於 Transformer 架構），在最近的 Hugging Face 評估中，Gaudi 2 在大規模推理方面的表現，包括運行 Stable Diffusion（高通端側模型）、70 億及 1760 億參數 BLOOMz 模型時，均有優異推理表現。
比如，與英偉達 A100 相比，在做 Stable Diffusion 模型推理時，Gaudi 2 加速器時延降低 2.21 倍。
可以説，Gaudi 2 雖然不能取代英偉達 H100，但英特爾為 LLM 推理和訓練提供了一個除 GPU 之外的 “CPU（至強）+ 加速器（Gaudi 2）” 的新方案。
原來，做 AGI 或 LLM 訓練和推理，並不限於用 GPU，也可以用 CPU 和 AI 加速器配合訓練。
Rivera 認為，實際上用户存在不同的產品需求：比如中小型模型用户，可選英特爾第四代至強（CPU）處理器（英特爾 AMX：高級矩陣擴展）作推理；若要做千億級新模型訓練，想要高等級算力，那麼也可採用 Gaudi。
在需要大規模業務部署時，Gaudi 2 能通過集羣橫向擴展獲得更線性的性能增長。
從 MLCommons 新公佈的 MLPerf 訓練 3.0 結果可以發現，Gaudi 2 在運行 1750 億參數的 GPT-3 模型時，當加速器數量從 256 個增加到 384 個時，能實現接近線性的 95% 的性能擴展效果。
英特爾可擴展至強是向 MLPerf 3.0 提交的眾多解決方案中，唯一的基於 CPU 通用處理器版本；支持 “開箱即用”，也就是説，可以在通用系統上部署 AI，以此提高易用性和降低成本。
<h2>看着美：豐滿和骨感之間</h2>
既然強調性價比，那麼 Gaudi 2 的目標，必然不會是頂尖的旗艦定位，而更注重 “跑量”。這就相當於智能手機的 “中高端” 類型，側重的是搶佔儘可能多的市場份額。
這種 “從中端入手” 的市場策略，已成為近年來英特爾的主要努力方向。
在這場生成式 AI 戰役中，英特爾結合了原本自身的 CPU 技術優勢，結合 AI 加速芯片，以第四代至強可擴展 CPU 芯片（英特爾 AMX：Advanced Matrix Extensions）疊加 Gaudi 2，在中端市場與英偉達展開角逐。
其中，英特爾 AMX 的 CPU AI 推理性能不容忽略；而 AMX 在 CPU AI 推理和訓練方面的能力，更成為英特爾結合其傳統技術優勢、推進強力競爭策略的底氣。
在 AI 推理工作負載中，AMX 的推理性能與英偉達 A100 GPU 相比超越 5 倍，與 AMD 的 64 核 EPYC CPU 相比可超 2 倍；在執行訓練工作時，AMX 的性能較英偉達 A100 GPU 有近 3 倍的性能提升，能在數秒或數分鐘內完成訓練，同時還能大幅降低用户成本。
英特爾公開展示了至強 Max 芯片運行 Stable Diffusion 模型的生成效果。Stable Diffusion 模型能以文生圖和以圖生圖，結果顯示，基於 AMX 芯片運行，該模型僅用 5.34 秒，就生成了一張圖像。
英特爾採用的以 “CPU+AI 加速器” 的產品組合為基礎的 AI 解決方案，用英特爾自己的話説，即 “為在封閉生態系統中，尋求擺脱當前效率與規模限制的客户，提供極具競爭力的選擇”。
在這個組合中，英特爾用兼具性能和每瓦能耗優勢的 Gaudi 2，做了用户細分需求的場景劃分，並強調了目前超越英偉達 A100 GPU、未來超越英偉達 H100 GPU 的性能、降低獲取 GPU 的時間成本、能耗等方面的高性價比標籤——什麼是性價比——性價比的核心標籤就是 “省錢”，以此在中高端市場侵蝕英偉達的市場份額。
易用性和與原有系統的絲滑過渡也是英特爾 AI 市場策略的一部分。
“開箱即用” 體現了易用性，Gaudi 2 的 SynapseAI 軟件套件集成了 PyTorch 和 TensorFlow 兩種常見深度學習框架，還包括 Megatron 和 DeepSpeed 等主流 LLM 訓練框架，這意味着開發者能做快速在不同硬件平台上做代碼遷移。
遷移速度有多快？10 分鐘，還包括閲讀文檔的時間。
從推出專門的中國版 Gaudi 2、採用 Gaudi 2 和兩顆 AMX 芯片的浪潮新一代 AI 服務器 NF5698G7 落地速度看，英特爾尤為重視中國市場。
英特爾的中國用户也表達了對英特爾 AI 產品的認可。浪潮信息高級副總裁、AI&amp;HPC 產品線總經理劉軍宣稱，他們的算法工程師在實際體驗中國版 Gaudi 2 後認為，其使用體驗 “與 GPU 基本沒太大區別”。
沒有太大區別，不等於毫無區別。
華爾街見聞注意到，英特爾此次推出的中國版 Gaudi 2（也包括國際版在內），相對於英偉達 A100 的性能優勢，集中在基於 Residual（殘差）結構的 ResNet（殘差網絡）模型，而非 GPT 通用的 Transformer 架構的 AGI 模型，兩者存在較大區別。
因此中國版 Gaudi 2 市場接受度究竟如何，在豐滿和骨感之間，天平會側重哪一端，仍需要時間做出回答。

英特爾財報，一站看懂！

英特爾

英偉達

英特爾 PK 英偉達，鹿會死誰手？

賽道 Hyper | “雙英” 開戰中國 AGI 市場