
云端算力竞赛新突破:创纪录英伟达 GB200 参与 MLPerf 测试,性能提升超两倍

本轮测量推理吞吐量的 MLPerf Inference v5.0 测试中,CoreWeave、英伟达和 IBM 使用 2496 块 GB200 Blackwell 芯片,构成 MLPerf 基准测试中规模最大的英伟达 GB200 NVL72 集群。在基准测试套件中最大、最复杂的 Llama 3.1 405B 基础模型训练中,该集群仅用 27.3 分钟就完成整个流程,相比相似规模集群测试提交结果,训练性能提升超过两倍。
一场关于算力基础设施的较量正在云端悄然展开——人工智能(AI)基础设施供应商 CoreWeave 联手英伟达和 IBM,刚刚交出了 MLPerf 史上最大规模的 MLPerf Training v5.0 测试结果,也是动用最多英伟达 GB200 超级芯片的 MLPerf 基准测试成绩。
美东时间 6 月 4 日周三,CoreWeave 公布,此次联手英伟达和 IBM 的测试中,使用了 2496 块 GB200 Grace Blackwell 超级芯片,运行 CoreWeave 的 AI 优化云平台,凸显了 CoreWeave 云平台的规模之大,以及 CoreWeave 对当今严苛 AI 工作负载的充分准备。
CoreWeave 称,此次测试中构成了迄今为止在 MLPerf 基准测试中规模最大的英伟达 GB200 NVL72 集群,这一规模比之前唯一来自云服务商的提交结果大 34 倍。
而且,在基准测试套件中规模最大、最复杂的 Llama 3.1 405B 基础模型训练中,上述 GB200 NVL72 集群仅用 27.3 分钟就完成了整个流程。相比其他参与测试者提交的相似规模集群测试结果,CoreWeave 的英伟达 GB200 集群将训练性能提升超过两倍。
CoreWeave 认为,这一结果凸显了 GB200 NVL72 架构带来的显著性能飞跃,也体现了,在提供一致且一流的 AI 工作负载性能方面,CoreWeave 基础架构拥有强大实力。
CoreWeave 的首席技术官兼联合创始人 Peter Salanki 表示:"AI 实验室和企业选择 CoreWeave,是因为我们提供专门构建的云平台,具备他们工作负载所需的规模、性能和可靠性。"
MLPerf Training v5.0 测试采用训练套件中最大模型 行业参与度创新高
MLPerf Inference 基准套件于 2019 年首次推出,此后不断更新新的模型和场景,以此确保它仍然是衡量 AI 计算平台推理性能的有用工具。MLPerf Inference v5.0 是目前最新的版本,可测量一系列不同模型和用例的推理吞吐量。
本周三,开放式产业联盟 MLCommons 发布了 MLPerf Training v5.0 基准测试结果,展现了 AI 领域的快速增长和演进。本轮测试包含创纪录的提交总数,大部分基准测试的提交数量相比 v4.1 版本都有所增加。
MLCommons 称,MLPerf Training v5.0 此次引入了新的 Llama 3.1 405B 大语言模型(LLM)预训练基准测试,它是训练基准测试套件中引入的最大模型,替代了之前版本中基于 GPT3 的基准。
MLCommons 称,虽然刚刚纳入测试,但 Llama 3.1 405B 基准测试收到的提交数量已经超过了前几轮基于 GPT3 的测试,显示出大规模训练的受欢迎程度和重要性。
MLCommons 披露,本轮 MLPerf Training v5.0 测试收到来自 20 个提交机构的 201 项性能测试结果,创纪录的超过 200 项提交结果显示,行业参与度创新高。延续自上一轮的绝大部分单项基准测试的提交数量都有所增加。
按英文名称头字母顺序排序,本轮 MLPerf Training v5.0 测试的参与机构包括 AMD、华硕、思科、CoreWeave、戴尔科技、GigaComputing、谷歌云、惠与、IBM、Krai、Lambda、联想、MangoBoost、Nebius、英伟达、甲骨文、云达科技、SCITIX、超微电脑和 TinyCorp。
MLCommons MLPerf 的负责人 David Kanter 称,特别欢迎首次提交 MLPerf 训练测试的 AMD、IBM、MangoBoost、Nebius 和 SCITIX。他还强调联想在本轮测试中提交的首组功耗基准测试,因为 AI 训练系统的能效问题日益严峻,亟需精准测量。

