明知不敌,也要亮剑,这不仅仅是独立团团长李云龙战斗精神的体现,也是 AMD 首席执行官苏姿丰的。美东时间 6 月 13 日,被视作 NVIDIA(英伟达)最具现实意义的竞对——AMD(超威半导体),发布了对标 NVIDIA 当前最强 AI 算力加速芯片 H100 的超强 AI APU(加速处理器)——AMD Instinct MI 300X。 从技术角度观察,AMD 这款加速芯片性能超越 NVIDIA H100 有参数支持。但参数是否能等同性能?资本市场有不同看法。 AMD 股价在美东时间 6 月 13 日盘中创出自 2022 年 1 月 19 日以来的新高后,一路下行,收跌 124.53 美元,跌幅 3.61%;NVIDIA 则收涨 3.9%,报收 410.22 美元,市值第二次突破 1 万亿美元。 MI 300 系列:专为 AGI 而生 AMD Instinct MI 300X,专为生成式 AI 而研发的加速器(国内称为 AI 芯片)。 与 2022 年 6 月首发的 AMD Instinct MI 300A 不一样,AMD Instinct MI 300X 没有集成 CPU 内核,而是采用 8 个 GPU chiplet(基于 CDNA 3 架构)和 4 个 I/O 内存 chiplet 的设计,这让其集成的晶体管数量高达 1530 亿个。 为缓解 AI 大型语言模型(LLM)所面临的内存制约,AMD 为这款芯片集成 192GB 的 HBM3(高带宽内存,High Bandwidth Memory),存储带宽高达 5.2 TB/s,可处理的参数也达到惊人的 400 亿。单颗 MI 300X 能运行一个参数多达 800 亿的模型。 可以将 AMD Instinct MI 300A 理解为专为 LLM 定制:拥有 192GB HBM3 内存、5.2TB/秒内存带宽和 896GB/秒的 Infinity Fabric 带宽。AMD 将 1530 亿个晶体管集成在共 12 个 5nm 的芯片中。 HBM 是一种面向需要极高吞吐量的数据密集型应用程序的 DRAM,作用类似数据 “中转站”,就是将使用的图像数据保存到帧缓存区中,等待 GPU 调用。 与其他 DRAM 最大的差别,就是 HBM 拥有超高带宽。最新一代 HBM 是 HBM3,带宽最高可达 819 GB/s,GDDR6 的带宽最高仅 96GB/s,CPU 和硬件处理单元的常用外挂存储设备 DDR4 的带宽只有 HBM 的 10%。 如此高的带宽,就让 HBM 成为了高性能 GPU 的核心组件。NVIDIA 推出的超级算力集群 DGX GH200 也采用了 HBM3 显示存储器。 根据不同的应用场景,美国 JEDEC(固态技术协会)将 DRAM 分为三种类型:标准 DDR、移动 DDR 和图形 DDR,HBM 属于最后一种。 在过去 20 年内,算力提升速度极快,但 I/O(写入和读出)带宽提升有限——前者提升 9 万倍,后者提升仅 30 倍,由此引发了 “内存墙” 问题,即数据传输过慢、能耗过高。 为有效解决数据传输瓶颈,提高内存带宽就成为必须攻克的技术难题。所谓内存带宽,就是处理器可从内存读取数据或将数据存储到内存的速率。 GDDR 采用传统的方法将标准 PCB 和测试的 DRAMs 与 SoC 封装在一起,旨在以较窄的数据通道提供更高的数据速率,进而实现必要的吞吐量,具有较高的带宽和较好的能耗效率。 在决策型 AI 阶段,GDDR 的带宽尚能满足应用需求,但生成式 AI(AGI)一来,又迫使存储商想出了 “堆叠”(chiplet)方案(将 GDDR 堆叠后与 GPU 封装起来),以解决内存带宽问题,于是 HBM 出现。 从物理结构上看,GDDR 是独立封装,放在 PCB 上围绕于 GPU 周围,而 HBM 则用 3D 堆叠技术排布在硅中阶层(Silicon Interposer)并与 GPU 封装成一个整体。经如此处理,HBM2 的面积,比 GDDR5 小了近 1 倍(94%)。 目前,HBM 已升级到 HBM3。从最初的 1GB 存储容量和 128GB/s 带宽的 HBM1,发展到目前的 64GB 存储容量和 819GB/s 带宽(2022 年 1 月 28 日发布 HBM3 标准)。 在 AGI 应用明确后(即 OpenAI 推出 ChatGPT-3.5),NVIDIA 于 2022 年 3 月推出的 AI 加速器 H100,其性能就比 AMD Instinct MI 300X 有所落后,后者的 HMB 密度是前者的 2.4 倍,带宽则为前者的 1.6 倍。 在存储空间方面,AMD Instinct MI 300X 可使用 192GB 内存,而 NVIDIA H100 芯片只支持 120GB 内存。 或许 AMD 还嫌性能赶不上 NVIDIA,毕竟 NVIDIA 还没推出真正的面向 AGI 的加速器芯片。因此 AMD 称,基于 896GB/s 带宽的 AMD Infinity 架构,可将 8 个 AMD Instinct M1 300X 加速器组合在一套系统中,这样就具备更强算力,为 AI 推理和训练提供 NVIDIA 之外的解决方案。 目前,AMD Instinct M1 300X 还没量产,最早将于今年三季度送样,四季度正式推出。 亲戚之间的竞争 AMD CEO 苏姿丰(Lisa Su)表示,随着语义模型规模越来越大,需要多个 GPU 支撑超高规模数据量级。但若采用 AMD 专用加速芯片,那么技术开发人员并不需要数量如此众多的 GPU。 苏姿丰还表示,IDC AI 加速器的潜在市场总额将从今年的 300 亿美元增长到 2027 年的 1500 亿美元 +,年复合增长率超过 50%。 AMD 推出具备如此强悍的 AI 训练和推理性能的 LLM 专用加速器,但其股价却在当日的交易盘中出现 3.61% 的跌幅,原因是什么? 据国内算力供应链人士透露,AMD 没有透露采用 AMD Instinct MI 300 系芯片的大客户名单,相当于没有正面回应此前资本市场关于采用这款芯片的大客户是哪些的猜测。 另外,这位观察人士还指出,AMD 也没有披露 MI 300 系芯片的成本或销售方案。“考虑到数量极多(24 颗)的 HBM3,极大的 Die 面积以及台积电 CoWoS 封装产能吃紧,因此出现了这一现象(推出强悍性能芯片,资本市场却选择用脚投票)”。 CoWoS 是台积电先进封装技术组合 3D Fabric 的一部分,该组合共包括前段 3D 芯片堆叠或 TSMC-SoIC(系统整合芯片)、后端 CoWoS 及 InFO 系列封装技术,可实现更佳效能、功耗、尺寸外观及功能,达成芯片系统级整合。 AI 预训练大模型对算力的需求将推动先进封装技术与 IDC 建设的进一步发展,ChatGPT 等预训练大模型对算力需求极大,亟需 Chiplet 先进封装打破摩尔定律的限制,此将成为提升 IDC 建设速度的有效手段。 NVIDIA 统治 AGI 的 LLM 秘技,除了性能强劲的 APU 硬件,其供开发者使用的配套软件也是黄仁勋 AI 帝国的关键地基。因此,AMD 自然有样学样,也推出了专用 AI 芯片软件(类似 NVIDIA CUDA),即 ROCm。 这种配套软件,就在于大幅降低 GPU 的性能调用门槛。比如,原本需要相对更专业的 OpenGL 图形编程语言,但有了 NVIDIA CUDA,开发者可以用 Java 或 C++ 就可以调用 GPU。CUDA 的作用,相当于有了一座从普通大众级代码软件走向专业高门槛图形编程语言的桥梁。 从 AMD 总裁彭明博(Victor Peng)的演讲可以看出,AMD 学习 NVIDIA 这种软硬一体的做法应该很早就开始了,但 “这个过程很长。(当然)在建立与开放模型、库、框架和工具生态系统的模型一起工作的软件堆栈方面,我们取得了极大进展。” 彭明博在 AMD 担任总裁和 AI 战略负责人,这人的存在,实际上折射了苏姿丰挑战 NVIDIA 的战略构想。 苏姿丰挑战 NVIDIA 在 AGI 时代垄断地位的手段之一,就是收购。2022 年,AMD 以 488 亿美元收购主要生产可编程处理器的赛灵思(Xilinx),这有助于加快视频压缩任务的速度。彭明博即赛灵思 CEO,被 “打包” 在这笔交易中成为 AMD 总裁。 此外,ADM 还基于自身原本具备的 CPU 优势,选择重点发力 APU(加速处理器),与 NVIDIA 核心 APU“A100/H100” 形成差异化竞争。 从市场角度看,两强竞争,也好过一个具备垄断能力的 NVIDIA。因此,挑战者 AMD 若在软硬一体方面的努力有性能和成本亮点,也并非全无机会。 就像《琅琊榜》和《三国演义》是一堆亲戚之间的战争,AMD 和 NVIDIA 也有类似戏剧性色彩。 有消息显示,黄仁勋和苏姿丰实际上是亲戚。黄仁勋之母,与苏姿丰之外祖,是兄妹关系,只不知是姑表兄妹还是亲兄妹。 黄仁勋 9 岁从泰国移居美国,本科毕业于俄勒冈州立大学,取得电气工程学学士学位;之后获得斯坦福大学电子工程硕士学位。毕业后进入 AMD 担任芯片设计工程师,30 岁创立 NVIDIA。 苏姿丰 5 岁随父母定居美国,24 岁获得麻省理工学院 EE(Electrical Engineering,电气工程)博士学位。之后,先后在 TI、IBM 和 AMD 任职。2014 年,开始领导 AMD。从 2014 年至今年(2023 年),在苏姿丰领导下的 AMD,股价翻了近 30 倍。