马斯克详解:xAI 如何在 122 天内搭建上线 10 万张卡训练集群

华尔街见闻
2025.02.19 01:31
portai
我是 PortAI,我可以总结文章信息。

埃隆·马斯克主持了 Grok 3 的发布会,介绍了其核心特点和新工具 “Deep Search”。xAI 团队在 122 天内成功搭建了全球最大训练集群,使用 10 万个 H100 GPU 进行协调训练。团队面临的挑战包括确保所有 GPU 的协同工作,以避免因单个 GPU 故障导致的训练错误。马斯克强调了团队的工程成就,打破了数据中心提供商的预期时间。

昨天中午,埃隆·马斯克领衔主持了万众期待的 “地表最强人工智能”——Grok 3 的发布会。

他与 xAI 的首席工程师 Igor Babuschkin、联合创始人 Jimmy Ba、Yuhuai "Tony" Wu 共同亮相,详细介绍了 Grok 3 的核心特点,包括其显著提升的推理能力、自然语言处理能力以及新推出的 “Deep Search”(深度搜索)工具。这一工具被设计用来处理复杂的查询,能够整合网络搜索和 X 平台上的实时信息,为用户提供更精准、深入的回答。

在回答最后一个观众提问时,埃隆介绍了 xAI 团队如何创下另一个工程奇迹:克服重重困难,在短短 122 天内,搭建并上线了 10 万张卡的全球最大训练集群。

观众提问:

在这个项目(Grok 3)中,最困难的部分是什么?你对此感到兴奋的是什么?

Jimmy Ba:

回想起来,我认为最困难的部分是让整个模型在 10 万个 H100 GPU 上协调训练,这几乎就像在与宇宙的最终 BOSS——熵——作斗争。因为在任何时候,都有可能射下来一根宇宙射线,翻转晶体管中的一个比特,如果梯度更新中有一个比特出错,整个梯度更新就会乱套。

而现在我们有 10 万个这样的 GPU,每次我们都必须让它们协同工作,任何时候任何一个 GPU 都可能出问题。

Jimmy Ba,华人,多伦多大学助理教授,人工智能先驱杰弗里·辛顿(Geoffrey Hinton)的学生,xAI 团队创始 12 员工之一

埃隆·马斯克:

是的,值得分解一下,我们是如何在 122 天内让世界上最强大的训练集群投入运行的。

一开始,我们其实并没有打算自己建数据中心。我们去找了数据中心提供商,问他们在一个地方协调运行 10 万个 GPU 需要多长时间。他们给出的时间范围是 18 到 24 个月。我们想,18 到 24 个月,这意味着失败是必然的。

所以唯一的办法就是自己动手。

于是,我们分解了这个问题。比如我们需要一栋建筑,我们不能自己建,必须使用现有的建筑。所以我们基本上寻找了一些被废弃、但本身状况良好的工厂,比如因为某家公司破产了之类的。

我们在孟菲斯找到了一家伊莱克斯工厂。这就是为什么它在孟菲斯——猫王的故乡,也是古埃及的首都之一。

这其实是一座非常不错的工厂,我不知道伊莱克斯为什么离开了,但它为我们的计算机提供了庇护所。

然后,我们需要电力,最初至少需要 120 兆瓦,但建筑本身只有 15 兆瓦。而最终为了 20 万个 GPU,我们需要 0.25 吉瓦的电力。

我们最初租了一大堆发电机。在建筑的一侧,我们有一排排的发电机,直到我们能够接入公用电力。

然后,我们还需要冷却。所以在建筑的另一侧,我们有一排排的冷却设备。我们租用了美国大约四分之一的移动冷却能力。

然后,我们需要安装所有的 GPU,它们都是液冷的。为了实现必要的密度,这是一个液冷系统。所以我们必须为液冷系统安装所有的管道。没有人曾经大规模地搭建过液冷的数据中心。

这是一个非常才华横溢的团队付出了极大的努力才能实现的结果。

你可能会想,现在应该可以跑起来了吧?

不。问题是 GPU 集群的电力波动非常剧烈,这就像一场巨大的交响乐。想象一下,一场有 10 万或 20 万人参与的交响乐,整个乐团会在 100 毫秒内从安静变到响亮。这导致了巨大的电力波动,进而导致发电机失控,它们从没预料到这种情况。

为了缓冲电力,我们使用了特斯拉的 Megapack 来平滑电力。Megapack 必须重新编程,于是 xAI 与特斯拉合作,我们重新编程了 Megapack,让它能够应对这些剧烈的电力波动,平滑电力,以便计算机能够正常运行。

这个方法奏效了,虽然过程相当复杂。

运抵孟菲斯的特斯拉 Megapack

但即使到了那个时候,我们仍然必须让所有计算机有效地通信,所有的网络问题都必须解决。我们调试了无数的网络电缆,凌晨四点钟还在调试网卡问题,我们大约在凌晨 4 点 20 分解决了问题。

我们发现有很多问题,其中之一是 BIOS 不匹配。

Igor Babuschki:

没错,BIOS 没有正确设置。我们必须在两台不同的机器之间比较 lspci 命令(注:一个 Linux 命令,用于列出系统中所有 PCI 设备)的输出。一台工作正常,一台不正常。还有很多其他问题。

埃隆·马斯克:

是的,没错。如果我们真的列出所有问题,会需要很长的时间。但这很有趣,这并不是说,哦,我们神奇地做到了。

我们必须像 Grok 在推理时那样,将问题分解成各个组成部分,然后解决每个组成部分,以便在比其他人短得多的时间内完成一个协调的训练集群。

Igor Babuschki:

然后,一旦训练集群启动并运行,可以交付使用,我们就必须确保它在整个过程中保持健康,这本身就是一个巨大的挑战。

然后,我们必须确保训练的每一个细节都正确,才能得到一个 Grok 3 级别的模型,这其实非常非常困难。

我们不知道是否有其他模型具备 Grok 3 的能力,但任何训练出比 Grok 3 更好的模型的人,都必须在深度学习的科学和工程的各个方面都非常出色。

要做到这一点并不容易。

瓦砾村夫,原文标题:《马斯克详解:xAI 如何在 122 天内搭建上线 10 万张卡训练集群》

风险提示及免责条款

市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。