
赛道 Hyper | 三星:誓把海力士拉下 HBM 榜首宝座

曾经犯过错,但王者愿纠偏。
作者:周源/华尔街见闻
从行业的情况看,GenAI(生成式人工智能:Generative Artificial Intelligence)的核心要件有两个:GPU 和 HBM,后者提供了当今可能的最高内存带宽,而 GPU 的性能并非由主频决定,而是受制于内存带宽。
GPU 领导公司英伟达在过去一年获得了令人惊讶的市值增长速度,但英伟达所有 AI 加速卡仍不能缺少 HBM 公司的支持。三星半导体业务主管 Kyung Kye-hyun 说,“HBM 的领导地位正在向我们袭来。”
带宽的作用与容量直接相关,容量大而带宽窄,就会影响 GPU 性能。目前,HBM 最高容量型号是三星在今年 2 月推出的 HBM3E 12H,堆栈数达到了 12 层。
最近,三星电子在内存芯片部门内成立高带宽内存(HBM)团队,以提高产量。这是三星继今年 1 月成立 HBM 特别工作组后,建立的第二个 HBM 专门团队。2019 年,三星电子误判 HBM 的市场前景,故而解散当时该公司的 HBM 团队。
现在,三星电子决心改正这个错误,对现在成立的 HBM 团队寄予厚望:抢占在 HBM 领域的领导地位。
内存带宽决定 AI 加速卡性能
由 ChatGPT 和 Sora 带来的 GenAI 应用需求正在改变世界。
这刺激了 AI PC、AI 服务器、AI 手机和 AI 处理器的巨大需求。这些处理器中的大多数(包括 AMD 和英伟达的计算 GPU、英特尔的 Gaudi、AWS 的 Inferentia 和 Trainium 等专用处理器及 FPGA)都使用了 HBM,因为 HBM 提供了当前最高的内存带宽。
与 GDDR6/GDDR6X 或 LPDDR5/LPDDR5X 相比,HBM 在带宽需求大的应用程序中如此受欢迎的原因,在于 HBM 每个堆栈的速度高达 1.2 TB/s,这是任何商业内存都达不到的带宽速度。
但如此优异的表现,代价就是成本过高,技术难度过大。HBM 现在实际上是先进封装的结果,这限制了供应并增加了成本。
用于 HBM 的 DRAM 设备,与用于商用内存(如 DDR4 和 DDR5)的典型 DRAM IC 完全不同。内存生产商必须制造 8 或 12 个 DRAM 设备并完成测试;之后,将之封装在预先测试的高速逻辑层之上,接着再测试整个封装。这个过程,既昂贵又漫长。
用于 HBM 的 DRAM 设备,必须具有宽接口,因此其物理尺寸更大,故而比常规 DRAM IC 更昂贵。
正因为如此,所以要满足 AI 服务器的需求,同步增加 HBM 内存产量,将影响所有 DRAM 类型的供应规模。
从物理结构看,HBM 成品是将很多个 DDR 芯片堆叠起来,再和 GPU 封装在一起,实现大容量、高位宽的 DDR 组合阵列。
HBM 在 AI 加速卡的物理结构中,处于左右两侧,由 DDR 颗粒堆叠而成,中间是 GPU。
由于 HBM 的成本制约,故而给了 DDR、GDDR 和 LPDDR 等类型的商业内存一线生机。这些品类也被用于对高带宽有需求的应用,像 AI、HPC、图形和工作站。美光科技曾对外表示,那些在容量和带宽方面有优化的商业内存的技术开发正在加速推进,因为 AI 硬件开发公司对之有明确需求。
美光计算和网络业务部高级经理 Krishna Yalamanchi 对 HBM 的看法看似多余。
“HBM 非常有应用前景,市场未来增长潜力巨大。” Yalamanchi 说,“目前,对 HBM 的应用主要集中在 AI、HPC(高性能计算)等需要高带宽、高密度和低功耗的领域。随着越来越多的处理器和平台采用 HBM,该市场预计将快速增长。”
这在当下,这样的看法并不有何新奇。但是这实际上代表了美光的看法,而美光是如假包换的行业巨头,虽然排名在三星和海力士之后。
据 Gartner 预测,对 HBM 的需求预计将从 2022 年的 1.23 亿 GB,激增至 2027 年的 9.72 亿 GB。这意味着 HBM 需求预计将从 2022 年占 DRAM 整体的 0.5%,增加到 2027 年的 1.6%。
如此规模的增长,主要是因为标准 AI 和生成 AI 应用中对 HBM 的需求在持续加速升级。
Gartner 分析师认为,HBM 的整体市场规模将从 2022 年的 11 亿美元增至 2027 年的 52 亿美元,HBM 价格相对 2022 年的水平也将下降 40%。
由于技术进步和 GenAI 的应用需求不断膨胀,HBM 堆栈的密度也将随之增加:从 2022 年的 16 GB 增加到 2027 年的 48GB。
据美光预计,2026 年能推出 64GB HBM Next(HBM4,第六代)堆栈。HBM3(第四代)和 HBM4 规范允许构建 16-Hi 堆栈,因此可以使用 16 个 32GB 器件构建 64GB HBM 模块。
三星确立双轨 AI 半导体战略
HBM 如此难做而如此昂贵,故而在 ChatGPT 问世之前,就连巨头公司也出现了需求误判。
三星电子,目前在 HBM 领域市占率位居第二,落后于 SK 海力士。这或许与三星电子在 2019 年误判 HBM 技术需求前景有关。那年,三星电子 “竟然” 解散了其 HBM 业务和技术团队。
为了把同属韩国的 “友商” SK 海力士拉下马,称霸 HBM 市场,三星电子于今年 1 月和 3 月先后成立两个 HBM 团队,部分成员来自设备解决方案部门,主要负责 DRAM 和 NAND 闪存的开发和销售;领导人是三星执行副总裁兼 DRAM 产品和技术主管 Hwang Sang-joon。
为了赶上并超越 SK 海力士,三星 HBM 团队计划于今年下半年量产 HBM3E,并于 2025 年生产后续型号 HBM4。
值得注意的是,4 月 1 日,三星电子 DS 部门负责人庆桂显宣布,为提升在 AI 领域的竞争力,公司内部实施了双轨 AI 半导体战略,专注研发 AI 用存储芯片和 AI 算力芯片的发展。HwangSang-joon 领导的 HBM 团队,将同时加速 AI 推理芯片 Mach-2 的开发进程。
庆桂显指出,市场对 AI 推理芯片 Mach-1 的需求日益增长,部分客户已表达了使用 Mach 系列芯片处理超过 1000B 参数的大型模型推理的需求。这一趋势促使三星电子加快下一代 Mach-2 芯片的研发步伐,以满足市场对高效能 AI 芯片的迫切需求。
Mach-1 目前正在开发中,预计今年年内将推出原型产品。这款芯片采用 SoC(片上系统)形式,用于 AI 推理加速,可减少 GPU 与 HBM 的瓶颈。
Mach-1 是一种高能效 AI 推理芯片。三星电子计划于 2024 年末、2025 年初投入应用,韩国 IT 巨头 Naver 考虑大批量购入,交易金额有望达 1 万亿韩元(约合 7.41 亿美元)。
HBM3E 是 HBM3 的扩展版本,内存容量 144GB,提供每秒 1.5TB 的带宽,相当于 1 秒能处理 230 部 5GB 大小的全高清电影。作为一种更快、更大的内存,HBM3E 可加速生成式 AI 和大型语言模型,同时能推进 HPC 工作负载的科学计算。
2023 年 8 月 9 日,黄仁勋发布 GH200 Grace Hopper 超级芯片,这是 HBM3E 的首次亮相。因此,GH200 Grace Hopper 成为全球首款 HBM3E GPU。
目前,HBM3E 是 AI 应用中性能最佳的 DRAM,技术代际为五代。HBM 代际共分五代:首代为 HBM,第二代是 HBM2,HBM2E 属于第三代,第四代则为 HMB3。
据三星电子的半导体业务负责人 Kyung Kye-hyun(池庆贤),想要 HBM4 的客户正在与之做联合开发定制,但他没有透露合作方是哪家公司。庆桂显则表示,多家客户有意与三星电子合作开发定制版的下一代 HBM4(第六代际)内存。
3 月 26 日,在加利福尼亚州圣何塞举行的全球芯片制造商聚会 Memcon 2024 上,三星电子预计,该公司今年的 HBM 存储器产量将比 2023 年的产量增加 2.9 倍。

