
微软打造 “行星级 AI 超级工厂”:构建分布式网络,整合数十万 GPU

微软通过构建横跨多州的分布式网络打造” 行星级 AI 超级工厂”,将分散在亚特兰大和威斯康星等地的数据中心整合为统一算力系统。该架构成功整合数十万个 Blackwell GPU,并采用液冷高密度设计,通过专用光纤网络实现算力协同,将复杂 AI 训练任务从数月压缩至数周,标志着 AI 基础设施正式进入网络化协同新时代。
微软正式推出其首座 “AI 超级工厂”,通过将跨越不同州的数据中心连接为统一系统,构建起一个具备行星际规模算力的分布式 AI 超级工厂。
这一架构将分散的算力资源整合为虚拟超级计算机,以前所未有的规模加速 AI 模型训练,将原本需数月的复杂任务缩短至数周,标志着 AI 基础设施从独立站点建设正式迈向 “行星际规模” 网络化协同的新阶段。
据微软披露,位于亚特兰大的新一代 AI 数据中心已于 10 月投入运营,这是 “Fairwater” 系列中的第二个设施,并通过专用网络与威斯康星州的首个 Fairwater 站点相连。该系统整合了数十万个最新 NVIDIA Blackwell GPU,构建起全球首个真正意义上的跨州 AI 计算集群。
这一进展正值科技巨头间 AI 算力竞争白热化。据《华尔街日报》报道,微软计划在未来两年内将其数据中心总面积扩大一倍。该 “AI 超级工厂” 将支持 OpenAI、微软 Copilot、法国 Mistral AI 及埃隆・马斯克的 xAI 等关键客户,进一步巩固其在 AI 基础设施领域的领先地位。
背后是巨额资本投入。微软上一财季资本支出超过 340 亿美元,并预计将持续加大投入。行业预计,全球科技公司今年 AI 相关投资总额将达 4000 亿美元。微软的分布式网络策略不仅是技术革新,更是其应对算力需求爆发、保持市场竞争力的核心举措。
“AI 超级工厂”:从独立站点到分布式网络
微软的 “AI 超级工厂” 概念,核心在于将多个地理上分散的数据中心融合成一个虚拟的单一超级计算机,这与传统数据中心的设计理念截然不同。
微软 Azure 基础设施总经理 Alistair Speirs 解释称:“传统数据中心旨在为多个客户运行数百万个独立的应用程序,而我们将此称为 ‘AI 超级工厂’,是因为它在数百万个硬件上运行一个复杂的作业。” 这种模式下,不再是单个站点训练一个 AI 模型,而是由一个站点网络共同支持同一项训练任务。

位于亚特兰大费尔沃特园区的所有 GPU 之间通过高速、高吞吐量的网络共享信息。图片由微软提供。
这个分布式网络将连接多个站点,整合数十万个最先进的 GPU、EB 级的存储空间和数百万个 CPU 核心。其设计目标是支持参数规模达到数万亿级别的未来 AI 模型训练。随着 AI 训练流程日益复杂,涵盖预训练、微调、强化学习和评估等多个阶段,这种跨站点的协同能力变得至关重要。
专为 AI 打造:新一代数据中心的设计与技术
为了实现 “超级工厂” 的愿景,微软从零开始设计了 “Fairwater” 系列数据中心。位于亚特兰大的设施占地 85 英亩,建筑面积超过 100 万平方英尺,其设计完全为 AI 工作负载优化。

Fairwater AI 数据中心的设计共有两层。图片由微软提供。
其关键技术特征包括:
高密度架构:采用创新的双层建筑设计,以便在更小的物理空间内容纳更多 GPU,从而缩短内部通信延迟。
尖端芯片系统:部署了英伟达的 GB200 NVL72 机架规模系统,可扩展至数十万个英伟达 Blackwell 架构 GPU。
高效液冷系统:为应对 GPU 集群产生的高热量,微软设计了复杂的闭环液体冷却系统。该系统几乎不消耗水资源,其初次注水量仅相当于 20 个美国家庭一年的用水量。
内部高速互联:在数据中心内部,通过高速网络将所有 GPU 紧密连接,确保信息在芯片之间快速流通。
“在人工智能领域取得领先,不仅仅是增加更多的 GPU,而是要构建能让它们作为一个系统协同工作的基础设施。” 微软云与人工智能部门执行副总裁 Scott Guthrie 表示。他强调,Fairwater 的设计凝聚了微软多年的端到端工程经验,旨在以真实世界的性能满足日益增长的需求。

Fairwater 数据中心 GPU 的物理密度使微软能够在更小的空间内集成更强大的计算能力,从而降低延迟。图片由微软提供。
跨州互联:AI 广域网与算力分配策略
将相隔遥远的多个数据中心连接成一个整体,依赖于微软专门打造的 AI 广域网(AI WAN)。微软为此部署了 12 万英里的专用光纤电缆,构建了一条专供 AI 流量的 “高速公路”,使数据能够以接近光速的速度无拥堵传输。
微软 Azure 首席技术官 Mark Russinovich 指出,随着模型规模的增长,训练所需的算力早已超出单个数据中心所能承载的极限。如果网络中任何一部分出现瓶颈,整个训练任务就会停滞。Fairwater 网络的目标就是让所有 GPU 始终保持忙碌状态。
之所以选择跨州建设,而非将所有算力集中一处,主要是出于土地和电力供应的考量。Alistair Speirs 在接受《华尔街日报》采访时表示,将电力需求分散到不同地区,可以避免对任何单一电网或社区造成过度负担。他坦言:“你必须做到能够跨多个区域进行训练,因为还没有人达到我们现在的规模,所以也没有人真正遇到过这个问题。”
需求激增下的 “军备竞赛”
微软的 “AI 超级工厂” 是其应对 AI 算力需求激增并与对手竞争的核心资产。尽管微软此前曾调整过部分数据中心租赁计划,但 Alistair Speirs 澄清这只是 “产能规划的转变”,公司目前面临的需求远超其供应能力。
在这场算力竞赛中,微软并非孤身一人。其主要竞争对手亚马逊最近在印第安纳州启动了占地 1200 英亩的 Project Rainier 数据中心集群,预计将消耗 2.2 吉瓦的电力。此外,Meta Platforms、甲骨文等公司也公布了庞大的建设计划,而 AI 初创公司 Anthropic 则宣布计划在美国投资 500 亿美元用于计算基础设施。
通过将数据中心连接成一个统一的分布式系统,微软不仅在技术上开辟了新路径,也在商业上为满足顶级 AI 公司的庞大需求做好了准备。正如 Scott Guthrie 所说:“我们让 AI 站点作为一个整体运行,能够帮助我们的客户将突破性的模型变为现实。”

