
深入探秘全球最大 AI 超级集群 xAI Colossus

xAI Colossus 是全球最大的 AI 超级集群,投资数亿美元,配备 10 万片 NVIDIA H100 GPU,计划扩展至 20 万片。该集群在 122 天内完成部署,具有超过 1500 个机架和 512 个 GPU 的阵列配置。每个服务器支持 9 个 400GbE 网络连接,总带宽达到 3.6Tbps,采用超微液冷系统,具备高可维护性。
xAI Colossus 数据中心概况
一、GPU 计算系统
GPU:Colossus 目前部署了 10 万个 NVIDIA Hopper GPU,并计划扩展至 20 万个,其中包括 5 万个 H100 和 5 万个 H200。所有 GPU 都集成在 NVIDIA HGX H100 平台上,每个平台包含 8 个 GPU。
机架配置:每个机架可容纳 64 个 GPU,8 个机架组成一个阵列,共计 512 个 GPU。Colossus 共有超过 1500 个机架,接近 200 个阵列。
服务器:超微 4U 通用 GPU 液冷系统。服务器内部结构包括:
8-GPU NVIDIA HGX 托盘:采用超微定制液冷模块,每个托盘包含 8 个 NVIDIA H100 或 Hopper GPU 以及 NVIDIA NVLink 交换机。
CPU 托盘:配备两个 x86 CPU 液冷块和一个用于冷却四个 Broadcom PCIe 交换机的定制液冷块。
可维护性:超微系统采用可维护托盘设计,无需将整机从机架上移除即可进行维护。每个服务器配备了四个热插拔电源。
网络:每个服务器配备 9 个 400GbE 网络连接,总带宽达到 3.6Tbps。其中 8 个 NVIDIA BlueField-3 SuperNIC 用于 AI 网络,另外 1 个 Mellanox ConnectX-7 网卡提供 CPU 端的其他网络功能。
二、CPU 计算系统
服务器:超微 1U 服务器,每机架 42 台。
CPU:采用高速 x86 CPU,具体型号未知。
网络:每个服务器配备一个 400GbE 网卡。
散热:CPU 服务器采用风冷设计,通过机架后部的热交换器将热量传递到液冷回路中。
三、存储系统
规模:EB 级存储。
介质:NVMe SSD。
服务器:超微 1U 服务器。
特点:为满足 AI 训练对存储容量的巨大需求,Colossus 的存储主要通过网络交付,供所有 GPU 和 CPU 服务器访问。
四、网络系统
GPU 网络:
技术:采用 400GbE 以太网,使用 NVIDIA Spectrum-X 网络解决方案,支持 RDMA 技术。
交换机:NVIDIA Spectrum-X SN5600 以太网交换机,每个交换机拥有 64 个端口,支持高达 800Gb/s 的速度,并可分割成 128 个 400GbE 链路。
网卡:NVIDIA BlueField-3 SuperNIC,为每个 GPU 提供专用网络连接。
存储网络:采用 400GbE 以太网,使用 64 端口 800GbE 以太网交换机。
特点:Colossus 的网络系统采用以太网而非 InfiniBand 等技术,这主要是因为以太网具有更好的可扩展性,能够满足 Colossus 庞大的规模需求。GPU 网络和 CPU 网络分离,以确保高性能计算集群的最佳性能。
五、冷却系统
GPU 服务器:
散热方式:液冷散热。
CDU:每个机架底部配备超微 CDU 和冗余泵系统。
冷却液循环:冷却液通过机架分配管道进入每个服务器的分配器,再流经服务器内部的 8-GPU NVIDIA HGX 托盘和 CPU 托盘的液冷块,最终回到 CDU。
其他:机架中仍保留了风扇系统,用于冷却内存、电源单元、主板管理控制器、网卡等低功耗组件。
CPU 服务器、网络设备和存储系统:风冷散热,通过机架后部的热交换器将热量传递到液冷回路中。热交换器类似于汽车散热器,通过风扇将热空气抽过散热片,并将热量传递给循环水。
机房:采用冷水循环系统,CDU 将热量传递到循环水中,热水在设施外部冷却后循环利用。庞大的供水管道将冷水引入设施,并循环流经每个机架中的 CDU,吸收热量后,热水被引导至设施外部的冷却设备。
六、电力系统
供电:采用三相电源,每个机架配备多个电源条。
储能:使用特斯拉 Megapack 电池组作为超级计算机和电网之间的能量缓冲器,每个 Megapack 可存储高达 3.9MWh 的电能。Megapack 的引入是为了解决 GPU 服务器功耗波动对电网造成的压力。
七、其他
监控系统:每个机架的 CDU 都有独立的监控系统,可以监控流量、温度等参数。此外,机架后部配备 LED 指示灯,用于显示设备状态,蓝色代表正常运行,红色表示故障。

xAI Colossus 数据中心计算大厅
通过对 xAI Colossus 超级计算机的深度探访,我们近距离感受到了 xAI 公司在田纳西州孟菲斯部署的大规模 AI 算力所带来的震撼。
这个总投资数亿美元、配备十万片 NVIDIA H100 GPU 的 AI 计算集群,不仅以其规模令业界瞩目,其建设速度更是创下记录——其团队仅用 122 天就完成了整个集群的部署。现在,让我们一起走进这座设施内部。
xAI 的液冷机架技术
Colossus 计算集群的核心构建单元是超微(Supermicro)的液冷机架系统。每个机架集成了八台 4U 服务器,单台服务器搭载八片 NVIDIA H100 GPU,使单机架总 GPU 容量达到 64 片。一个完整的 GPU 计算机架由八台 GPU 服务器、一个超微冷却分配单元(Cooling Distribution Unit, CDU)及配套设备组成。

xAI Colossus 数据中心超微液冷节点低角度
这些机架以八台为一组部署,每组可支持 512 片 GPU,并配备网络互联设施,以便在更大规模系统中形成计算子集群。
xAI Colossus 数据中心超微 4U 通用 GPU 液冷服务器
xAI 采用的是超微的 4U 通用 GPU 系统,这是当前市面上最先进的 AI 计算服务器,其优势主要体现在两个方面:领先的液冷技术和卓越的可维护性。

xAI Colossus 数据中心超微 4U 通用 GPU 液冷服务器
这些系统的原型首次亮相于 2023 年超级计算大会(SC23)。由于我们参观时系统正在执行训练任务,未能在孟菲斯现场开箱展示。值得一提的是,系统采用了可服务化托盘设计,无需将整机从机架移除即可进行维护。1U 机架分配管道负责为每个系统输送冷却液并回收热液。快速断开接头使得液冷系统的拆装变得简便,去年我们就演示过单手操作这些接头的便利性。断开接头后,托盘可轻松抽出进行维护。

超微 4U 通用 GPU 系统,用于液冷的 NVIDIA HGX H100 和 HGX 200(展示于 SC23)
这些服务器原型的图片资料,可以展示系统内部结构。除了采用超微定制液冷模块的 8-GPU NVIDIA HGX 托盘外,CPU 托盘的设计充分展现了行业领先的下一代工程理念。

超微 4U 通用 GPU 系统,用于液冷的 NVIDIA HGX H100 和 HGX 200(展示于 SC23)
SC23 原型中的两个 x86 CPU 液冷块相当常见。独特之处在于右侧。超微的主板集成了四个 Broadcom PCIe 交换机,这些交换机几乎用于当今所有的 HGX AI 服务器,而不是将它们放在单独的板上。超微然后有一个定制的液冷块来冷却这四个 PCIe 交换机。行业中的其他 AI 服务器是先构建,然后将液冷添加到风冷设计中。超微的设计从一开始就是为液冷设计的,并且全部来自一个供应商。

超微 SYS 821GE TNHR,NVIDIA H100 和 NVSwitch 液冷模块
这可以类比汽车领域:有些电动车是在传统燃油车底盘上改装而成,而有些则是原生设计的纯电动车。超微的系统属于后者,而其他 HGX H100 系统则类似前者。我们实际测试过大多数公开的 HGX H100/H200 平台和一些超大规模设计,超微系统的优势相较其他系统(包括超微自己的其他液冷或风冷设计)显著可见。
机架后部设有 400GbE 光纤,用于 GPU 和 CPU 组件的互联,以及用于管理网络的铜缆。网络接口卡(Network Interface Card, NIC)采用独立托盘设计,可在不拆卸机箱的情况下快速更换,安装位置在机箱后部。每台服务器配备四个热插拔电源,由三相配电单元(PDU)供电。

xAI Colossus 数据中心超微 4U 通用 GPU 液冷服务器后视图
机架底部安装有冷却分配单元(CDU),这些 CDU 实际上是大型热交换器。每个机架都有独立的流体循环系统,为所有 GPU 服务器提供冷却。这里使用"流体"而非"水",是因为循环系统需要根据液冷块、管道、分配器等硬件特性选用特定的冷却液。
xAI Colossus 数据中心超微 CDU 位于机架底部
每个 CDU 配备冗余泵和电源,支持单泵故障时在不停机的情况下进行更换。
拆卸超微 CDU 泵
xAI 的机架功能丰富,在 2023 年的相关视频中,我们详细展示了超微 CDU 的结构,包括机房水路和机架分配管道的进出水接口,以及每个 CDU 的热插拔冗余电源。

超微 CDU 2023 后视图
Colossus 机架中的 CDU 被各种管线和线缆遮挡着。

xAI Colossus 数据中心超微 CDU 后视图
机架两侧配备三相 PDU 和机架分配管道。前置的 1U 分配管道为 4U 通用 GPU 系统供液,该分配管道则由连接 CDU 的机架分配管道供给。所有组件采用红蓝配色标识,红色表示热流体回路,蓝色表示冷流体供给。

xAI Colossus 数据中心超微机架分配器软管
机架中仍保留了风扇系统,用于冷却内存(DIMM)、电源单元、主板管理控制器(BMC)、网卡等低功耗组件。在 Colossus 中,每个机架需要保持冷却平衡,避免使用大功率空气处理设备。服务器风扇从前部吸入冷空气,从后部排出,随后经过后门热交换器处理。

xAI 数据中心参观后门热交换器
后门热交换器的原理类似汽车散热器,将机架排出的热空气通过带散热片的热交换器处理。热交换器中的流体可将热量转移至机房水路系统。空气通过设备后部的风扇抽入。这些设备具有 LED 指示功能,正常运行时显示蓝光,需要维护时会转为其他颜色(如红色)。
在施工现场参观时,虽然我没有开启几台机架,但看到这些热交换器在机架上线时呈现出不同的颜色变化,还是觉得非常有意思。

xAI 数据中心参观后门热交换器
这些后门热交换器在数据中心中扮演着双重角色:不仅处理超微液冷 GPU 服务器的余热,还可以处理存储系统、CPU 计算集群和网络设备产生的热量。
xAI 的存储系统
在典型的 AI 计算集群中,大型存储阵列是标配。在此项目中,虽然运行着来自不同厂商的存储软件,但绝大部分存储服务器硬件均由超微提供。这很好理解,因为超微是多家存储设备供应商的 OEM。

xAI Colossus 数据中心超微 1U NVMe 存储节点
实地考察时一个引人注目的细节是,部分存储服务器的外观与 CPU 计算服务器极为相似。

xAI Colossus 数据中心超微 1U NVMe 存储节点
从我们的图片和视频记录可以看到大量 2.5 英寸 NVMe 硬盘托架。大规模 AI 计算集群正在经历从机械硬盘存储向闪存存储(SSD)的转型。闪存存储不仅能显著降低能耗,还能提供更高的性能和存储密度。虽然每 PB 闪存的初始投入较高,但从 TCO 角度来看,在此规模的集群中,闪存通常是更具经济效益的选择。
xAI 的 CPU 计算系统
在大规模计算集群中,传统 CPU 计算节点依然占据重要位置。相比 GPU,CPU 在数据处理和操作任务方面仍具独特优势。此外,将 GPU 资源专注于 AI 训练或推理(Training/Inference)工作负载,而由 CPU 承担其他计算任务,是一种更为高效的资源分配策略。

xAI Colossus 数据中心 CPU 计算机架
在项目现场,我们看到了整排的 1U 服务器。每台服务器的设计都在计算密度和散热需求之间达到了精妙的平衡。以机箱正面为例,约三分之一的面板用于冷空气进气,其余部分则布置了带有橙色标识的 NVMe 硬盘托架。

xAI Colossus 数据中心 CPU 计算机架
这些 1U 计算服务器采用风冷设计,通过后门热交换器(Rear Door Heat Exchanger)将热量转移至机房水冷系统(Facility Water Loop)。这种设计使得 xAI 能够在同一数据中心基础设施中,同时兼容液冷和风冷设备的散热需求。
xAI 的网络
网络是此项目最为引人关注的部分之一。虽然基础技术仍是以太网(Ethernet),与普通电脑使用的网络协议相同,但这里采用的是 400GbE 网络,其传输速率是常见 1GbE 网络的 400 倍。每个系统配备九个这样的连接,使单台 GPU 计算服务器的总带宽达到惊人的 3.6Tbps。

xAI Colossus 数据中心网卡(NIC)
GPU 的数据传输主要依赖于 RDMA 网络。每个 GPU 都配备专用网卡,项目采用 NVIDIA BlueField-3 SuperNIC 和 Spectrum-X 网络解决方案。NVIDIA 的网络技术栈具有独特优势,能确保数据在集群内高效精准地传输。

xAI Colossus 数据中心交换机光纤
值得注意的是,与多数采用 InfiniBand 等技术的超级计算机不同,此项目选择了以太网。这一选择极具战略意义——以太网作为互联网的基础协议,具有卓越的可扩展性。当今规模庞大的 AI 集群已经超出了许多复杂专有技术的覆盖范围,xAI 团队在这方面做出了富有远见的尝试。
除 GPU 的 RDMA 网络外,CPU 系统也配备了独立的 400GbE 网络,使用完全不同的交换架构。这种 GPU 网络与普通集群网络分离的设计,是高性能计算(HPC)集群中的最佳实践。

xAI Colossus 数据中心单模和多模光纤
为了直观理解 400GbE 的性能,单条链路的带宽就超过了 2021 年初发布的顶级 Intel Xeon 服务器处理器的全部 PCIe 通道总和,而每台服务器配备了九条这样的连接。

xAI Colossus 数据中心交换机堆叠
如此密集的网络互联需要大量光纤布线。每条光纤都经过精确切割、端接处理和标识管理。

xAI Colossus 数据中心光纤布线
我 8 月份遇到了一些从事这项工作的人员。他们的结构化布线总是做得非常整洁。

xAI Colossus 数据中心光纤布线
除高速集群网络外,设施还部署了用于管理接口和环境设备的低速网络,这是大规模集群的必备组成部分。
在实地考察中,液冷网络交换机的需求显而易见。我们最近评测的 64 端口 800GbE 交换机,其性能与多数 AI 集群使用的 51.2T 级交换机相当。行业面临的挑战是如何同时解决交换芯片和光学组件的散热问题,后者在现代交换机中的功耗往往更高。这样规模的部署或许能推动协同封装光学(Co-packaged Optics)技术的发展,使交换机冷却能与液冷计算系统完美集成。我们此前见过液冷协同封装光学交换机的原型展示,期待本次部署能促进这些技术从实验走向量产。
xAI Colossus 的机房设施
由于我们采用液冷的 AI 服务器机架,电力和设施用水对于安装至关重要。这里展示了庞大的供水管道,分为冷水和热水两组。冷水被引入设施,并循环流经每个机架中的冷却液分配单元(CDU)。热量从 GPU 和后门热交换器回路传递至 CDU 的设施用水回路。热水随后被引导至设施外部的冷却设备。值得注意的是,这些冷却设备并非用于制冰,而是旨在将水温降低至足以再次循环利用的程度。

xAI Colossus 数据中心设施用水管道
电力系统同样引人注目。在我们孟菲斯之行中,目睹了团队将巨大的电缆搬入到位。

xAI Colossus 数据中心的电气基础设施
在机房设施外,我们看到了装载特斯拉 Megapack 的集装箱。这是团队在建设这个庞大集群过程中的一项重要发现。AI 服务器的电力消耗并非恒定,而是会随工作负载的波动而变化。由于现场部署了大量 GPU,电力峰谷现象十分明显。团队发现,毫秒级的电力峰值和低谷对系统造成了显著压力,因此引入特斯拉 Megapack 以缓冲电力峰值,从而提高系统的稳定性。

准备在 xAI Colossus 安装的特斯拉 Megapack
当然,这仅仅是设施建设的开始。尽管在我们访问时,四个 25,000 GPU 数据中心的初始集群已投入使用,能够支持约 100,000 个 GPU,但集群的扩展工作正在快速推进。

在孟菲斯 xAI Colossus 数据中心的外部
这无疑是一个令人振奋的开端。
总结
在这个过程中,我深刻体会到,xAI 团队在协调众多供应商方面付出了巨大努力。如此庞大的 AI 集群的建成,离不开各领域专家的通力合作,他们以令人难以置信的速度共同创造了一个奇迹。如果仅从我拍摄视频的那天所见,很难想象背后凝聚了如此多的心血。
AI 社区普遍认为,随着计算能力的不断提升,大语言模型(LLMs)的潜力将远不止于聊天机器人。漫步在 Colossus 中,我深切感受到,只有当人们看到了数据驱动的巨大价值,才会投入如此巨大的资源进行建设。Grok 和 xAI 团队的未来无疑将超越简单的聊天机器人。众多才智之士正倾注大量心血和财力,力争尽快实现这一愿景。

