作者:周源/华尔街见闻从行业的情况看,GenAI(生成式人工智能:Generative Artificial Intelligence)的核心要件有两个:GPU 和 HBM,后者提供了当今可能的最高内存带宽,而 GPU 的性能并非由主频决定,而是受制于内存带宽。GPU 领导公司英伟达在过去一年获得了令人惊讶的市值增长速度,但英伟达所有 AI 加速卡仍不能缺少 HBM 公司的支持。三星半导体业务主管 Kyung Kye-hyun 说,“HBM 的领导地位正在向我们袭来。”带宽的作用与容量直接相关,容量大而带宽窄,就会影响 GPU 性能。目前,HBM 最高容量型号是三星在今年 2 月推出的 HBM3E 12H,堆栈数达到了 12 层。最近,三星电子在内存芯片部门内成立高带宽内存(HBM)团队,以提高产量。这是三星继今年 1 月成立 HBM 特别工作组后,建立的第二个 HBM 专门团队。2019 年,三星电子误判 HBM 的市场前景,故而解散当时该公司的 HBM 团队。现在,三星电子决心改正这个错误,对现在成立的 HBM 团队寄予厚望:抢占在 HBM 领域的领导地位。内存带宽决定 AI 加速卡性能由 ChatGPT 和 Sora 带来的 GenAI 应用需求正在改变世界。这刺激了 AI PC、AI 服务器、AI 手机和 AI 处理器的巨大需求。这些处理器中的大多数(包括 AMD 和英伟达的计算 GPU、英特尔的 Gaudi、AWS 的 Inferentia 和 Trainium 等专用处理器及 FPGA)都使用了 HBM,因为 HBM 提供了当前最高的内存带宽。与 GDDR6/GDDR6X 或 LPDDR5/LPDDR5X 相比,HBM 在带宽需求大的应用程序中如此受欢迎的原因,在于 HBM 每个堆栈的速度高达 1.2 TB/s,这是任何商业内存都达不到的带宽速度。但如此优异的表现,代价就是成本过高,技术难度过大。HBM 现在实际上是先进封装的结果,这限制了供应并增加了成本。用于 HBM 的 DRAM 设备,与用于商用内存(如 DDR4 和 DDR5)的典型 DRAM IC 完全不同。内存生产商必须制造 8 或 12 个 DRAM 设备并完成测试;之后,将之封装在预先测试的高速逻辑层之上,接着再测试整个封装。这个过程,既昂贵又漫长。用于 HBM 的 DRAM 设备,必须具有宽接口,因此其物理尺寸更大,故而比常规 DRAM IC 更昂贵。正因为如此,所以要满足 AI 服务器的需求,同步增加 HBM 内存产量,将影响所有 DRAM 类型的供应规模。从物理结构看,HBM 成品是将很多个 DDR 芯片堆叠起来,再和 GPU 封装在一起,实现大容量、高位宽的 DDR 组合阵列。HBM 在 AI 加速卡的物理结构中,处于左右两侧,由 DDR 颗粒堆叠而成,中间是 GPU。由于 HBM 的成本制约,故而给了 DDR、GDDR 和 LPDDR 等类型的商业内存一线生机。这些品类也被用于对高带宽有需求的应用,像 AI、HPC、图形和工作站。美光科技曾对外表示,那些在容量和带宽方面有优化的商业内存的技术开发正在加速推进,因为 AI 硬件开发公司对之有明确需求。美光计算和网络业务部高级经理 Krishna Yalamanchi 对 HBM 的看法看似多余。“HBM 非常有应用前景,市场未来增长潜力巨大。” Yalamanchi 说,“目前,对 HBM 的应用主要集中在 AI、HPC(高性能计算)等需要高带宽、高密度和低功耗的领域。随着越来越多的处理器和平台采用 HBM,该市场预计将快速增长。”这在当下,这样的看法并不有何新奇。但是这实际上代表了美光的看法,而美光是如假包换的行业巨头,虽然排名在三星和海力士之后。据 Gartner 预测,对 HBM 的需求预计将从 2022 年的 1.23 亿 GB,激增至 2027 年的 9.72 亿 GB。这意味着 HBM 需求预计将从 2022 年占 DRAM 整体的 0.5%,增加到 2027 年的 1.6%。如此规模的增长,主要是因为标准 AI 和生成 AI 应用中对 HBM 的需求在持续加速升级。Gartner 分析师认为,HBM 的整体市场规模将从 2022 年的 11 亿美元增至 2027 年的 52 亿美元,HBM 价格相对 2022 年的水平也将下降 40%。由于技术进步和 GenAI 的应用需求不断膨胀,HBM 堆栈的密度也将随之增加:从 2022 年的 16 GB 增加到 2027 年的 48GB。据美光预计,2026 年能推出 64GB HBM Next(HBM4,第六代)堆栈。HBM3(第四代)和 HBM4 规范允许构建 16-Hi 堆栈,因此可以使用 16 个 32GB 器件构建 64GB HBM 模块。三星确立双轨 AI 半导体战略HBM 如此难做而如此昂贵,故而在 ChatGPT 问世之前,就连巨头公司也出现了需求误判。三星电子,目前在 HBM 领域市占率位居第二,落后于 SK 海力士。这或许与三星电子在 2019 年误判 HBM 技术需求前景有关。那年,三星电子 “竟然” 解散了其 HBM 业务和技术团队。为了把同属韩国的 “友商” SK 海力士拉下马,称霸 HBM 市场,三星电子于今年 1 月和 3 月先后成立两个 HBM 团队,部分成员来自设备解决方案部门,主要负责 DRAM 和 NAND 闪存的开发和销售;领导人是三星执行副总裁兼 DRAM 产品和技术主管 Hwang Sang-joon。为了赶上并超越 SK 海力士,三星 HBM 团队计划于今年下半年量产 HBM3E,并于 2025 年生产后续型号 HBM4。值得注意的是,4 月 1 日,三星电子 DS 部门负责人庆桂显宣布,为提升在 AI 领域的竞争力,公司内部实施了双轨 AI 半导体战略,专注研发 AI 用存储芯片和 AI 算力芯片的发展。HwangSang-joon 领导的 HBM 团队,将同时加速 AI 推理芯片 Mach-2 的开发进程。庆桂显指出,市场对 AI 推理芯片 Mach-1 的需求日益增长,部分客户已表达了使用 Mach 系列芯片处理超过 1000B 参数的大型模型推理的需求。这一趋势促使三星电子加快下一代 Mach-2 芯片的研发步伐,以满足市场对高效能 AI 芯片的迫切需求。Mach-1 目前正在开发中,预计今年年内将推出原型产品。这款芯片采用 SoC(片上系统)形式,用于 AI 推理加速,可减少 GPU 与 HBM 的瓶颈。Mach-1 是一种高能效 AI 推理芯片。三星电子计划于 2024 年末、2025 年初投入应用,韩国 IT 巨头 Naver 考虑大批量购入,交易金额有望达 1 万亿韩元(约合 7.41 亿美元)。HBM3E 是 HBM3 的扩展版本,内存容量 144GB,提供每秒 1.5TB 的带宽,相当于 1 秒能处理 230 部 5GB 大小的全高清电影。作为一种更快、更大的内存,HBM3E 可加速生成式 AI 和大型语言模型,同时能推进 HPC 工作负载的科学计算。2023 年 8 月 9 日,黄仁勋发布 GH200 Grace Hopper 超级芯片,这是 HBM3E 的首次亮相。因此,GH200 Grace Hopper 成为全球首款 HBM3E GPU。目前,HBM3E 是 AI 应用中性能最佳的 DRAM,技术代际为五代。HBM 代际共分五代:首代为 HBM,第二代是 HBM2,HBM2E 属于第三代,第四代则为 HMB3。据三星电子的半导体业务负责人 Kyung Kye-hyun(池庆贤),想要 HBM4 的客户正在与之做联合开发定制,但他没有透露合作方是哪家公司。庆桂显则表示,多家客户有意与三星电子合作开发定制版的下一代 HBM4(第六代际)内存。3 月 26 日,在加利福尼亚州圣何塞举行的全球芯片制造商聚会 Memcon 2024 上,三星电子预计,该公司今年的 HBM 存储器产量将比 2023 年的产量增加 2.9 倍。