英特尔芯片设计之变

华尔街见闻
2024.09.30 02:08
portai
我是 PortAI,我可以总结文章信息。

奇特的 AI 卡 Gaudi 3 和求变的 Xeon 6。

作者:周源/华尔街见闻

9 月 25 日,英特尔正式推出 AI 加速卡 Gaudi 3 和 “Granite Rapids” Xeon 6(至强 6,服务器 CPU)。

Gaudi 3 对标英伟达 H100 和 AMD 的 Instinct MI300,用于 GAI 和 HPC;Xeon 6 专为人工智能和高性能计算场景设计。

虽弱但强?怎么理解?

今年 4 月,英特尔就宣布,将于今年四季度推出 Gaudi 3,现在,市场终于可以看到这颗英特尔倾尽全力研发的 AI 加速卡的实际性能,究竟有多强。毕竟,英特尔要靠这颗芯片正面 PK 英伟达广受市场欢迎的 H100 加速卡。

除了选用 HBM2E(第三代)作为存储中心,较为令人迷惑——H100 用的是 HBM3(H100 SXM5 GPU 是全球首款使用 HBM3 内存的 GPU,提供了高达 3 TB/s 的内存带宽),其他的性能升级,至少从参数看,还是非常惊人的。

Gaudi 3 采用台积电 5nm 制程工艺,拥有两个芯片组:每个芯片组各有 4 个(合计 8 个)MME(矩阵乘法引擎),包含 64 个张量处理器核心(TPC,带有 FP32 累加器的 256x256 MAC 结构);SRAM 缓存容量翻番至 96MB,带宽翻倍至 19.2TB/s;HBM2E 内存容量从 96GB 增加到 128GB(8 颗),带宽为 3.7TB/s。

与前代 Gaudi 2 相比,在物理配置上,Gaudi 3 也有明显的大幅提升。Gaudi 2 用了台积电 7nm 工艺,有 24 个 TPC、2 个 MME 和 96GB HBM2E 高带宽内存。但不知出于何种考虑,英特尔 Gaudi 3 仅支持 FP8 矩阵运算和 BFloat16 矩阵和矢量运算,不再支持 FP32、TF32 和 FP16。

性能方面,Gaudi 3 的 MME 和矢量 BF16 的参数都赶不上英伟达 H100。

Gaudi 3 的 MME BF16/FP8 都是 1835 TFlops(1.835 亿亿次/秒),矢量 BF16 能达到 28.7 TFlops(28.7 万亿次/秒),分别比 Gaudi 2 提升 3.2 倍、1.1 倍和 1.6 倍;但是英伟达 H100 的这三项性能参数分别为 BF16 的 1979 TFlops(高于 1835 TFlops)、FP8 的 3958 TFlops 和 1979TFlops。

在核心性能参数上,Gaudi 3 和英伟达 H100 的差距肉眼可见。但是,英特尔却宣称,Gaudi 3 比 H100 的 LLM 大模型推理性能领先 50%、训练时间快 40%,综合性价比是英伟达的两倍。

这是怎么做到的呢?是不是英特尔的软件能力(尤其是软件开发配套工具)和 AI 生态比英伟达更强?毕竟硬件性能需要强悍的软件能力,以及完善的生态做配合,才能充分激发。

对此,英特尔没有做过多解释,其宣称比英伟达更强的证据,仅是几张 PPT。因此,是否真能像英特尔说的那样,还需要市场和时间验证。

唯一让市场对英伟达高度自信有信心的是售价。今年早些时候,英特尔表示,基于八颗 Gaudi 3 的 AI 加速器套件,售价 12.5 万美元。也就是说,每颗 Gaudi 3 售价约 15,625 美元。相比之下,H100 目前售价为 30,678 美元,英特尔 Gaudi 3 的价格是英伟达 H100 的 50.93%。

至少英特尔高层也承认生态的价值,认知还是相当全面的。

英特尔执行副总裁兼数据中心和人工智能事业部总经理 Justin Hotard 说,“对 AI 的需求正在推动数据中心发生巨大转变,业界要求在硬件、软件和开发工具方面做出选择。随着我们推出配备 P 核的 Xeon 6 和 Gaudi 3 AI 加速器,英特尔正在建立一个开放的生态系统,使我们的客户能够以更高的性能、效率和安全性实施所有工作负载。”

从这个表态可以看出,英特尔的 AI 加速卡生态也在构建过程中。开发配套软件方面,Gaudi 3 能无缝兼容 PyTorch 框架、Hugging Face Transformer 和扩散模型;同时,Gaudi 3 会提供给 IBM Cloud 和英特尔 Tiber 开发者云。

此外,Gaudi 3 加速器提供三种部署形态,分别是 OAM 2.0 标准夹层卡,被动散热峰值功耗 900W,液冷散热峰值功耗 1200W;HLB-325 通用基板,功耗未知;HL-338 扩展卡,PCIe 5.0 x16 接口,被动散热峰值功耗 600W。

基于英特尔 Gaudi 3 的系统将于今年第四季度从戴尔、HPE 和超微全面上市,戴尔和超微的系统将于 10 月出货,超微的设备将于 12 月出货。

设计思路向联发科看齐?

同一日,英特尔还发布了宣称过久却迟迟不露面,故而快被遗忘的 “Granite Rapids” Xeon 6(CPU)。

好在 9 月 25 日,“Granite Rapids” 服务器 CPU 系列的高端产品终于登台,市场认为,“Granite Rapids” Xeon 6 与今年 6 月发布的 “Sierra Forest” Xeon 6 芯片组合起来,还是能打的,起码能降低英特尔在 IDC(数据中心)领域的市场损失。

尽管这个结果不那么好——推出一颗新的性能强劲的处理器,作用仅仅是降低损失,这无论怎么说,都有点令人沮丧。但是,英特尔的对手——AMD 现在对英特尔来说,后者难以在技术、成本、性能和市场等维度做到超越,故而若能减少损失,这结果已经相对理想。

由于 Xeon 6 的 E 核(能耗)和 P 核(性能)变体的芯片封装和架构,在 2023 年的 Hot Chips 2023 已经公开,所以实际上,对 “Granite Rapids” Xeon 6 来说,性能提升的亮点就 9 月 25 日披露的信息看,最鼓舞至少是英特尔公司信心,部分让市场看到希望的亮点,是——Xeon 6 提升了设计水平。

芯片设计水平能决定最终的性能表现,芯片设计最难的部分是取舍,这取决于对特定芯片定位、性能、技术水平、成本、竞争和市场需求度等极多维度的综合考虑。

比如联发科技设计旗舰芯片的核心考虑是要在保持相对低功耗的基础上,再考虑性能提升;而高通更追求高性能,不像联发科那么极度追求功耗平衡,所以之前推出了饱受市场诟病的火龙芯片。

英特尔的芯片设计考虑,有点类似于联发科。比如 IPC(每时钟指令数)常被用来衡量 CPU 性能的重要指标。那么在芯片设计时,无限制提升 IPC 是可取的吗?

别忘了还有能耗限制。虽然台式机或者服务器,对能耗的容忍度更高,但也会综合考虑能耗成本。此时应该如何选择?

最近,英特尔高级研究员兼 Xeon 6 产品线首席架构师 Ronak Singhal 对这个话题有过一番解释, 核心观点就一个,英特尔 Xeon 6 的设计思路是降低能耗,同时再尽可能的保持高性能,故而不过分追求 IPC。

这个设计指导思路的结果就是,“Granite Rapids” Xeon 6,英特尔将核心数量从之前的两颗 P 核的 56 个核心提升至 120 个,增加 2.3 倍,而顶部部分的功率仅增加至 500W,仅增加 1.4 倍。

总的来说,Xeon 6 的性能特性很多,比如超核心数(UCC)变体,即 Xeon 6 6900P,具有高达 504 MB 的 L3 缓存,远超通常的英特尔芯片缓存容量。但是 Xeon 6 也有很奇特的设计,比如不支持支持四路和八路服务器的变体,这和 Gaudi 3 使用 HBM2E 一样令人困惑。