AI 基础设施的未来:谷歌与微软在多数据中心训练中的竞争态势

华尔街见闻
2024.09.22 03:53
portai
我是 PortAI,我可以总结文章信息。

谷歌与微软在 AI 基础设施的竞争中,谷歌凭借其先进的计算系统和液冷技术领先,计划在多个数据中心园区进行吉瓦级 AI 训练。微软则启动扩建计划,力求在基础设施上赶超谷歌,建设多个吉瓦级数据中心,并计划采用全液冷设计以提升能效。

谷歌与微软核心能力对比

基础设施与扩展能力
  • 谷歌:爱荷华州 Council Bluffs 园区 IT 容量接近 300 兆瓦,预计 2023 年总容量将超 500 兆瓦。俄亥俄州和爱荷华州/内布拉斯加州预计 2025 年底总容量将达 1 吉瓦,哥伦布地区即将建设的吉瓦级集群。2025 年预计在多个园区进行吉瓦级训练,2026 年形成吉瓦级 AI 训练集群。
  • 微软:凤凰城最大 AI 训练基地计划扩展至 10 座建筑,自建 24 个数据中心。威斯康星州自建超级园区,成为最大单一数据中心园区。德克萨斯州与 Oracle+Crusoe 和 CoreWeave+Core Scientific 合作,建设多个吉瓦级数据中心,计划在全美范围内扩建,目标在规模上超越谷歌。
冷却技术
  • 谷歌:采用直接到芯片(Direct-to-Chip)的水冷方式,通过液 - 液热交换器将机架热量转移至中央设施水系统,部署数百万颗液冷 TPU,总容量超过 1 吉瓦。
  • 微软:目前最大的数据训练集群尚未采用液冷技术,计划在密尔沃基和亚特兰大建设全液冷设计的单体建筑,专用于下一代 AI 硬件。
能源效率
  • 谷歌:实现 1.1 的 PUE,大部分时间无需使用冷水机组,采用巨型冷却塔和集中式水系统,能散发近 200 兆瓦热量。
  • 微软:PUE 为 1.223,风扇功耗超过服务器功率的 15%。计划在未来园区采用空冷冷水机组,水使用效率(WUE)达 2.24 升/千瓦时,远高于行业平均的 0.49。
AI技术与产品
  • 谷歌:Gemini 1 Ultra 模型率先实现多数据中心训练,即将发布的 Gemini 2 有望在合成数据、强化学习和模型架构方面赶超 OpenAI 和 Anthropic,部署数百万颗液冷 TPU。
  • 微软:与 OpenAI 合作,计划在多个超大规模园区互联,实施覆盖全美的大规模分布式训练,计划建立多吉瓦级的计算系统。
通信网络
  • 谷歌:在俄亥俄州和爱荷华州/内布拉斯加州的集中区域可进一步互联,支持单一模型的多吉瓦训练,采用高带宽光纤网络,确保多数据中心间的低延迟通信。
  • 微软:与 Lumen Technologies 和 Zayo 合作,利用先进的光纤技术和基础设施支持大规模 AI 训练集群,计划通过高速光纤网络实现多园区间的低延迟通信和数据传输。

微软吉瓦级 AI 训练集群计划

一、概况
  • 目标: 将多个园区互联,打造大规模 AI 训练集群。
  • 合作伙伴: Lumen Technologies 与 Zayo 为微软提供光纤技术支持,构建高性能计算网络。
  • 需求: 需要处理海量数据,实现低延迟通信,以满足 AI 模型训练的需求。
二、Lumen Technologies 的角色与挑战
  • 协议签署: Lumen 与微软达成 50 亿美元的互连协议,并与 Corning 签署了保持 10% 产能的协议。
  • 市场需求: AI 推动的光纤需求急剧上升,Lumen 计划再争取 70 亿美元的销售机会。
  • 闲置资源: Lumen 拥有大量 “暗光纤” 未被充分利用,面临升级机会。
三、电信行业的趋势与挑战
  • 资本支出: 预计未来电信资本支出将超过 100 亿美元,专门用于多数据中心的 AI 训练。
  • 价格压力: 由于互联网价格下降,企业流量向互联网迁移,造成对 MPLS 需求的减少。
四、受益公司及其发展前景
  • Fabrinet: 通过 400ZR 产品线受益,电信业务占收入的近 40%,并与多家电信客户保持良好合作。
  • Lumentum: 受 ZR/ZR+ 光学器件需求增长的推动,预计实现显著收入增长。
  • Ciena: 在电信硬件市场占据领先地位,特别是在 AI 流量需求驱动下,订单持续增长。
  • Cisco: 超大规模客户的订单实现两位数增长,预计未来还将继续获得 AI 相关订单。
  • Marvell: 在 ZR 光学和相干 DSP 领域具备竞争优势,相关业务快速增长,市场前景广阔。
基础知识

多数据中心分布式训练

1. 概念与目标:数据中心分布式训练通过将训练任务分散到多个数据中心,以实现更高的计算效率和资源利用率。

2. 关键步骤:

  • 数据分割:将训练数据划分为多个迷你批次,分配给不同的数据中心。
  • 梯度计算:各中心独立计算梯度。
  • 梯度同步:使用高效的通信机制(如 all-reduce)同步梯度,以确保模型参数一致。

3. 挑战与问题:

  • 通信开销:随着芯片数量增加,通信延迟和带宽要求显著上升,影响整体训练效率。
  • 延迟问题:不同地理位置的数据中心之间的延迟会显著降低训练速度。
  • 滞后节点:性能不均衡的节点可能导致整体训练任务速度下降,影响模型收敛。

4. 解决方案

  • 异步训练:采用异步更新策略,减少对全局同步的依赖,提高效率。
  • 优化通信协议:开发更高效的通信协议,降低延迟和数据交换成本。
  • 动态资源调整:实时监测网络状态,动态调整资源分配以应对延迟和带宽波动。

5. 其他考虑:

  • 扩展性:根据阿姆达尔定律,增加节点并不总能线性提升训练性能。
  • 监控与优化:需要对 MFU 等性能指标进行监控,以识别并消除滞后节点,保持训练效率。
容错训练

1. 概念与目标:容错训练是指在分布式系统中,通过设计来应对硬件故障,使得即使部分计算单元(如 GPU)发生故障,整体训练过程仍可持续进行,避免从检查点重启,减少资源闲置。

2. 关键步骤:

  • 故障检测:实时监控计算单元状态,及时识别故障节点。
  • 资源分配:在故障发生时,将计算任务动态重分配到可用的 GPU 上。
  • 状态恢复:在容错条件下,保持模型训练状态,不影响整体训练进度。

3. 挑战与问题:

  • 边缘案例覆盖不足:现有开源库(如 TorchX)未能处理所有可能的故障情况,限制了应用场景。
  • 网络故障影响:在大规模 GPU 集群中,网络故障会导致数据包重传,影响训练效率。
  • 性能差异:不同硬件的性能差异(芯片抽奖效应)会影响容错机制的效果。

4. 解决方案:

  • 开发全面的容错系统:借鉴谷歌的 Borg 和 Pathways,构建覆盖更多故障场景的容错基础设施。
  • 改进网络通信:优化数据传输机制,减少对顺序传输的严格要求,提高容错能力。
  • 利用检查点技术:实现 GPU 进程状态和内存内容的检查点保存,支持更灵活的故障恢复。

5. 其他考虑:

  • 高温烧机测试:在系统投入使用前进行充分的烧机测试,以筛除早期故障,提高系统稳定性。
  • 静默数据损坏(SDC)检测:采用工具(如 DCGMI)监控并识别 SDC 问题,以确保计算结果的准确性。
  • 技术保密与开放:尽管容错训练方法日益重要,但相关技术的公开程度较低,可能影响行业发展与合作。
训练策略

1. 概念与目标:训练策略旨在优化分布式训练过程,通过减少全局同步次数和允许部分独立运行来克服阿姆达尔定律中的回报递减问题,适用于跨园区、多区域或跨大陆的训练场景。

2. 关键步骤:

  • 层级化同步:根据延迟和带宽差异,设定不同层级的同步频率,以适应不同地理位置的 GPU 配置。
  • 负载平衡:在不同园区间根据 GPU 数量和批量大小进行动态调整,确保训练过程中的负载均衡。
  • 参数服务器机制:使用多层参数服务器架构,允许模型副本与多个服务器频繁交换数据,确保全局权重的及时更新和收敛。

3. 挑战与问题:

  • 收敛性问题:异步更新可能导致收敛困难,需要优化算法以避免不稳定。
  • 合并与更新:在大模型训练中,合并不同分支的更新可能造成额外工程复杂度,影响效率。
  • 网络瓶颈:跨区域训练面临带宽和延迟的双重限制,可能影响整体训练速度。

4. 解决方案:

  • 优化异步参数服务器:改进现有异步参数服务器模型,通过算法创新来解决更新和收敛问题。
  • 强大分片器:利用谷歌的 MegaScaler 等工具来实现高效的跨园区训练和权重交换。
  • 网络基础设施优化:推广高带宽、低延迟的网络技术,降低跨区域训练的带宽需求。

5. 其他考虑:

  • 未来扩展性:预计未来模型规模可达 100 万亿参数,需提前布局相关基础设施。
  • 光纤铺设成本:在跨区域训练中,需考虑光纤铺设的成本和许可问题,确保网络布局的可行性。
  • 行业动态:对异步训练的回归可能要求重新评估现有训练策略和基础设施设计,以适应新的技术要求。
调制与复用技术

1. 概念与目标:调制与复用技术通过提高信号传输效率和带宽利用率,优化光纤通信,特别是在数据中心和电信网络中,以满足高速数据传输的需求。

2. 关键步骤:

  • 调制方案选择:使用如 PAM4、16-QAM 和 64-QAM 等高级调制方案,增加每符号传输的比特数,提升传输速率。
  • 密集波分复用(DWDM):将多个波长的光信号复合到一根光纤中,从而显著增加带宽。
  • 相干光学技术应用:采用相干光源和数字信号处理器(DSP)实现复杂的调制方案,确保信号的准确性和稳定性。

3. 挑战与问题:

  • 成本问题:高阶调制方案和相干光学设备(如可调谐激光器)成本高昂,限制了普及。
  • 光纤质量限制:长距离传输受光纤本身的限制,需要高质量的光纤和设备以减少信号衰减。
  • 信号干扰:非相干光源可能导致相位干扰,影响调制信号的恢复。

4. 解决方案:

  • 优化相干光模块:采用硅光子技术降低成本,并逐步使用 O 波段激光器简化设计。
  • DWDM 技术扩展:通过增加波长数量(如 C 波段和 L 波段)来提升带宽,适应不断增长的客户需求。
  • 模块化设计:使用 ZR/ZR+ 光模块实现直接插入网络端口,简化电信设备链。

5. 其他考虑:

  • 行业趋势:随着 AI 和大数据需求增加,调制与复用技术的持续发展将成为数据中心互连和电信网络的关键。
  • 未来预期:高阶调制和 DWDM 的结合有望在单对光纤上实现超过 100Tbps 的传输能力,推动更大规模的网络升级。
电信网络部署

1. 概念与目标:电信网络是用于数据传输的基础设施,旨在满足高带宽、高可靠性的通信需求,特别是支持数据中心互连与跨地域训练。目标是通过优化光纤资源配置和传输技术,实现大规模、高效的数据交换。

2. 关键步骤:

  • 光纤铺设:在城市和主要基础设施旁铺设大量光纤对,通常预留闲置光纤以应对未来需求。
  • DWDM 技术应用:通过密集波分复用将多个光信号合并到单一光纤中,显著提升带宽。
  • 超大规模运营商自建网络:超大规模运营商通常选择直接与设备供应商合作,以满足其特定需求。

3. 挑战与问题:

  • 成本控制:海底光缆部署成本高,主要集中在光纤对数量上,而陆地光缆的主要成本在于劳动力和设备。
  • 资源稀缺:在某些城市地区,光纤资源可能受到限制,导致超大规模运营商不得不使用较少的光纤对。
  • 技术复杂性:长途网络需要多种电信设备,增加了系统复杂性和占用空间。

4. 解决方案:

  • 扩展光纤对的部署:超大规模运营商通常会选择提前铺设多于实际需求的光纤对,以减少后续的复杂电信部署。
  • 模块化电信设备:使用模块化的机箱组合各类设备,如转发器、DWDM 多路复用器和 ROADM,以提升系统灵活性和可扩展性。
  • 动态网络管理:通过 ROADM 实现光信号的动态调节与优化,提升网络性能和资源利用率。

5. 其他考虑:

  • 市场趋势:非云客户的电信设备需求可能逐步复苏,促使设备供应商的市场前景改善。
  • 技术进步:随着 ZR/ZR+ 光模块在数据中心互连中的应用扩大,预计对电信设备和系统的支出将增加,推动行业向更高性能设备转型。

 

AI基础设施的未来,谷歌与微软在多数据中心训练中的竞争态势

吉瓦(GW)级集群、通信网络、长途光缆、分层与异步随机梯度下降(SGD)、分布式基础设施

随着规模定律(Scaling Laws)持续推动 AI 发展,基础设施建设需求激增。今年,顶尖 AI 模型训练集群已扩展至 10 万个 GPU 单元,预计 2025 年将达到 30 万个。然而,受制于建设周期、审批流程、法规限制和电力供应等现实因素,传统的单一数据中心大规模同步训练模式正逼近极限。

谷歌、OpenAI 和 Anthropic 已着手将大规模模型训练扩展至多个数据中心园区。谷歌拥有全球最先进的计算系统,率先大规模应用机架级液冷架构和多数据中心训练等关键技术,这些技术如今才逐步被其他公司采纳。

Gemini 1 Ultra 模型率先实现多数据中心训练。尽管谷歌在浮点运算能力(FLOPS)上领先,但在合成数据、强化学习(RL)和模型架构方面仍落后于 OpenAI 和 Anthropic。即将发布的 Gemini 2 有望改变这一局面。更值得关注的是,谷歌预计 2025 年将具备在多个园区进行吉瓦级训练的能力,但其长期规划出人意料地比 OpenAI 和微软更为保守。

当大多数企业刚开始接触英伟达 GB200 架构的高密度液冷 AI 芯片时,谷歌已部署了数百万颗液冷 TPU,总容量超过 1 吉瓦(GW)。这凸显了谷歌在基础设施方面的巨大优势。

谷歌展示的 AI 训练园区目前电力容量接近 300 兆瓦(MW),预计明年将增至 500 兆瓦。除规模庞大外,这些设施还具备极高的能源效率。设施采用巨型冷却塔和集中式水系统,通过水管连接三栋建筑,能散发近 200 兆瓦热量。借此系统,谷歌大部分时间无需使用冷水机组,实现了 1.1 的 PUE(电源使用效率),这一数据来自 2023 年最新环境报告。

谷歌采用直接到芯片(Direct-to-Chip)的水冷方式,通过液 - 液热交换器将机架热量转移至中央设施水系统。这种高效能源系统与英伟达 GB200 的液 - 液部署极为相似。

相比之下,微软目前最大的数据训练集群尚未采用液冷技术。每栋建筑的 IT 容量比谷歌低约 35%,尽管总建筑面积(GFA)相当。公开数据显示,微软的 PUE 为 1.223,但这一计算对空冷系统有利,因为未能准确计量服务器内部风扇功耗。以 H100 空冷服务器为例,风扇功耗超过服务器功率的 15%,而液冷 DLC 服务器仅不足 5%。

因此,微软每瓦供给芯片的功率需额外消耗约 45% 用于服务器风扇、电力冷却和其他非 IT 负载,而谷歌仅需额外 15% 左右。考虑到 TPU 的更高效率,微软的整体情况不容乐观。

此外,为在亚利桑那州等沙漠地区实现较高能效,微软需大量水资源。其水使用效率(WUE)达 2.24 升/千瓦时,远高于行业平均的 0.49 和谷歌略高于 1 的水平。这一高水耗引发负面关注,微软被要求在未来园区采用空冷冷水机组,虽可降低耗水,但会进一步提高 PUE,拉大与谷歌的能效差距。

综上所述,根据现有数据中心设计,谷歌拥有更高效的基础设施,且能更快扩展兆瓦级容量。由于单栋建筑容量高出 50% 以上,谷歌每瓦 IT 负载所需公用电力相对较少。

谷歌的 AI 训练基础设施

谷歌在基础设施建设方面独树一帜。其单个数据中心设计已超越微软、亚马逊和 Meta,但这仅是冰山一角。过去十余年,谷歌一直在构建大规模园区。爱荷华州 Council Bluffs 园区就是典型案例,虽历史悠久,但西部区域 IT 容量接近 300 兆瓦。尽管大部分容量用于传统工作负载,我们推测下方建筑可能部署了大量 TPU。东部扩展区采用最新数据中心设计,进一步增强 AI 训练能力。

谷歌最大的 AI 数据中心彼此毗邻。公司在俄亥俄州和爱荷华州/内布拉斯加州拥有两个主要多数据中心区域。目前,Council Bluffs 周边地区正大规模扩建,容量将超过现有规模两倍。除上图所示园区外,谷歌在该地区还有三个在建站点,均正升级高带宽光纤网络。

在方圆 15 英里内,谷歌在 Council Bluffs、奥马哈和爱荷华州 Papillon 设有三个站点,另一个位于 50 英里外的内布拉斯加州林肯市。图中 Papillon 园区为奥马哈和 Council Bluffs 地区增加了超 250 兆瓦容量。结合上述园区,2023 年谷歌在该地区总容量将超 500 兆瓦,大部分分配给 TPU。

其他两个站点规模尚未达此水平,但正快速扩张。四个园区合计,预计 2026 年将形成吉瓦级 AI 训练集群。50 英里外的林肯数据中心将成为谷歌最大单体站点。

谷歌庞大的 TPU 部署不止于此。另一个即将建设的吉瓦级集群位于俄亥俄州哥伦布地区,采用类似发展模式。预计 2025 年底,三个园区总容量将达 1 吉瓦。

图示 New Albany 集群将成为谷歌最大数据中心之一,已部署 TPU v4、v5 和 v6。

谷歌在俄亥俄州和爱荷华州/内布拉斯加州的集中区域可进一步互联,支持单一模型的多吉瓦训练。我们的数据中心模型详细记录了逾 5,000 个数据中心的历史和预测电力数据,涵盖 AI 实验室、超大规模云厂商、次世代云及企业集群的建设状况。后续报告将深入探讨多数据中心训练的软件栈及相关方法。

微软与 OpenAI 的基础设施反击策略

微软和 OpenAI 深知自身在基础设施方面的短期劣势,因此启动了一项雄心勃勃的计划,试图在基础设施建设上赶超谷歌。他们正努力在谷歌的强项领域——水冷多数据中心训练集群上与之一较高下。

微软和 OpenAI 正在建设接近吉瓦级的超高密度液冷数据中心园区。同时,他们还与 Oracle、Crusoe、CoreWeave、QTS、Compass 等公司合作,力争在 AI 训练和推理总容量上超越谷歌。

部分园区建成后,规模将超过谷歌目前任何单一园区。实际上,微软在威斯康星州的园区规模将超过谷歌在俄亥俄州所有站点的总和,但建设周期较长。

然而,OpenAI 和微软的野心远不止于此。他们计划将多个超大规模园区互联,实施覆盖全美的大规模分布式训练。他们将率先建立一个多吉瓦级的计算系统。与供应链伙伴携手,他们正在进行史上最宏大的基础设施建设。

本报告后续将详细介绍微软和 OpenAI 的基础设施建设情况。在此之前,我们将首先探讨多园区的同步和异步训练方法、滞后节点、容错机制、隐性数据损坏以及多数据中心训练面临的各种挑战。

接下来,我们将解析数据中心间如何通过光纤通信网络实现互联,包括相关技术和设备。

最后,我们将分析电信供应链,并讨论这轮 AI 基础设施建设中的关键受益者,以及我们认为哪些公司将在其中占据优势。

多数据中心分布式训练

大型语言模型(LLM)通常采用同步训练方式。训练数据被划分为若干小型迷你批次,由不同 GPU 组上的模型副本处理。每个迷你批次处理后,各副本计算梯度,然后在每批次结束时同步。

这种同步通常通过 all-reduce 等集体通信操作完成,汇总所有副本的梯度。汇总后,梯度被平均化并用于同时更新模型参数。这确保所有数据副本保持一致的参数集,保证模型稳定收敛。由于同步过程要求所有设备在下一步前等待彼此完成,因此确保没有设备在模型状态上超前或落后。

尽管同步梯度下降提供稳定收敛,但也带来巨大挑战,特别是单一训练任务中芯片数量超 10 万时,通信开销显著增加。同步特性意味着对延迟有严格要求,且必须有足够大带宽连接所有芯片,因为数据交换往往以巨量数据流形式发生。

当尝试使用多区域 GPU 处理同一训练任务时,区域间延迟增加。即使光纤中以 208,188 公里/秒速度传播,美国东西海岸往返时间(RTT)也需 43.2 毫秒。各类电信设备还引入额外延迟。这对标准同步训练是显著挑战。

根据阿姆达尔定律(Amdahl's law),当工作负载中存在大量同步操作时,增加芯片带来的加速效果迅速递减。随芯片数量增加,程序运行中需同步的部分比例不变,会达到理论极限,即使 GPU 数量翻倍,总吞吐量增加也不超 1%。

除理论扩展极限外,同步梯度下降实际应用还面临滞后节点等挑战。某芯片比其他慢 10% 时,会导致整个训练任务也慢 10%。图示中,从步骤 7500 到 19000,字节跳动的 MFU(机器浮点利用率)逐渐下降,因越来越多芯片速度略有下降,整个任务逐渐受制于滞后节点。

识别并移除滞后节点后,字节跳动从检查点重启训练任务,恢复正常 MFU 水平。可见 MFU 从 40% 降至 30%,减少 25%。拥有 100 万 GPU 时,25%MFU 下降相当于 25 万 GPU 闲置,约合超 100 亿美元 IT 资本支出。

容错训练(Fault Tolerant Training)

容错训练是分布式系统的关键环节。当数百万计算、存储和内存元件同时运行时,故障不可避免,甚至可能出现"芯片抽奖"(Silicon Lottery)导致的性能差异。系统设计旨在应对这些问题。然而,机器学习训练作为全球最大规模的计算问题,却采用了相反策略。

所有芯片必须完美运行,因为 10 万 GPU 中任一故障都将导致全部 GPU 从检查点重启,造成大量闲置。容错训练允许在单 GPU 故障时,仅少量 GPU 受影响,大多数可继续运行,无需从模型权重检查点重启。LLAMA 3.1 等开源模型已因此消耗大量成本和时间。

英伟达 InfiniBand 网络存在类似潜在缺陷,要求每个数据包按完全相同顺序传输。任何偏差或失败都需重新传输数据。10 万 GPU 集群报告指出,单是网络故障影响就可以以分钟计。

主要开源库 TorchX(前身 TorchElastic)实现了容错训练,但存在显著缺点,如无法覆盖所有边缘故障情况,不支持三维并行。这导致大型 AI 实验室不得不自行开发容错训练系统。

谷歌作为容错基础设施领先者,通过 Borg 和 Pathways 实现最佳容错训练。这些库涵盖最多边缘案例,体现谷歌垂直整合优势:自行设计训练芯片、构建服务器、编写基础设施代码并进行模型训练。这种高度集成有助于快速应对并解决根本性问题。

总体而言,容错能力是扩展 10 万 +GPU 集群至单一工作负载的关键。英伟达在 AI 系统可靠性上远落后于谷歌,这也解释了容错能力在英伟达职位描述中频繁出现的原因。

设计冗余和容错机制,包括冗余组件、接口和错误校正码(ECC),以最大化系统可用性。评估并选择适当的技术和组件,以优化可靠性、可用性和可维护性,同时考虑平均故障间隔时间(MTBF)、平均修复时间(MTTR)和总拥有成本(TCO)等因素。

在 CPU 领域,容错基础设施通常被认为是一个已解决的问题。例如,谷歌内部的数据库 Spanner 支撑着所有谷歌的生产服务,包括 YouTube、Gmail 和 Stadia(愿其安息),并能够在全球范围内进行分布式扩展,同时在存储服务器和 NVMe 磁盘故障方面具备容错能力。在谷歌的数据中心,每小时都有数百个 NVMe 磁盘发生故障,但对最终用户和内部而言,Spanner 的性能和可用性始终保持不变。

另一个关于传统 CPU 工作负载容错性的例子是 MapReduce。MapReduce 是一种建模方式,用户可以通过处理数据样本来 “映射” 数据,并将多个数据样本 “归约” 为一个聚合值。例如,统计一篇论文中有多少个字母 “W” 是一个非常适合 MapReduce 的理论工作负载:对每个单词进行映射,映射将输出每个数据样本中 “W” 的数量,而 “归约” 则会聚合所有样本中的 “W” 数量。MapReduce 可以通过检测哪些 CPU 工作节点出现故障,并在其他 CPU 工作节点上重新执行失败的映射和归约任务来实现容错。

Jeff Dean、Sanjay Ghemawat 等谷歌世界级专家开发了大量 CPU 领域容错研究和系统。随机器学习训练规模扩大和容错要求提高,谷歌在构建可靠、稳健系统方面的专长将成为竞争优势。

GPU 故障分布呈浴盆曲线,多发生于集群生命周期早期和末期。这解释了投入使用前广泛烧机测试的必要性。部分 AI 新兴云厂商为最大化使用寿命,未充分烧机测试,导致用户体验极差。

相反,超大规模云计算公司和大型 AI 实验室在高温和快速温度波动下长时间烧机测试,确保早期故障过去,系统进入随机故障阶段。但需在充分烧机时间和避免过度消耗 GPU 与光收发器寿命间平衡。

磨损故障多发生于设备生命周期末期,原因常为组件在高强度使用中经历快速中高温波动。光收发器尤其易受热循环损害。

CPU 领域,物理主机错误率高时,通常将虚拟机(VM)迁移至另一主机。超大规模厂商甚至实现无缝迁移,用户无感知。这通常通过后台复制内存页面实现,应用程序短暂减速时,VM 迅速切换至正常运行的第二个物理主机。

Linux 主流软件包 CRIU 用于主要容器引擎,支持物理主机间容器和应用迁移,甚至可冻结整个进程状态并存储为检查点。长期仅适用于 CPU 和 AMD GPU,直到今年英伟达才开始支持。

从 2024 年起,英伟达 GPU 将支持 CRIU 检查点,实现物理主机间更顺畅迁移 CPU 进程状态、内存内容和 GPU 进程。

微软 Singularity 集群管理器论文描述了利用 CRIU 实现 GPU 虚拟机透明迁移。Singularity 设计初衷即考虑全球 GPU 工作负载调度管理,已用于 Phi-3 训练(1024 块 H100 GPU)等多个模型。微软在此方面追赶谷歌 Borg 集群管理器,后者拥有高度垂直整合优势。

容错训练重要性致相关方法公开基本停止。OpenAI 等公司向硬件行业反馈问题时措辞含糊,避免透露分布式系统具体技巧。这些技术较模型架构更重要,二者均可视为计算效率一部分。

静默数据损坏(SDC)是另一常见问题,导致计算机处理结果产生静默错误,用户或管理员无警报。难以解决因"静默"意味不可察觉。部分轻微,但可能导致输出变为 NaN 或梯度异常增大。Jeff Dean 梯度范数图展示部分 SDC 可通过梯度范数突变识别,但部分无法检测。

部分梯度范数突变非硬件 SDC 引起,而是大批量数据或超参数调整不当所致。所有运营 GPU 集群公司定期遇 SDC 问题,但小型中型新兴云厂商常因资源受限难以快速识别修复。

DCGMI 诊断工具可诊断英伟达 GPU SDC 等错误,能捕获相当部分常见 SDC,但无法处理许多导致数值错误和性能问题的边缘案例。

测试不同新兴云厂商 H100 时,尽管 DCGMI 诊断级别 4 通过,但 NVSwitch ALU 未正常工作,导致 NVLS NCCL 算法性能下降,产生错误 all-reduce 结果。后续 NCCL/RCCL 集体通信文章将深入探讨这些基准测试结果。

相比之下,谷歌 Pathways 在识别解决 SDC 方面表现优异。高度垂直整合的基础设施和训练堆栈使其能轻松在大规模训练任务前后进行 SDC 检查。

异步训练曾广泛使用。2012 年 Jeff Dean《Distbelief》论文描述在大量 CPU 核上训练深度学习模型的异步和同步梯度下降技术。引入全局"参数服务器",广泛应用于生产环境训练谷歌自动补全、搜索和广告模型。

当时参数服务器式训练效果良好。然而,新模型架构收敛性问题使行业逐渐回归完全同步梯度下降。目前所有前沿模型如 GPT-4、Claude、Gemini 和 Grok 均使用同步梯度下降训练。随 GPU 数量持续增加,未来可能再次转向异步梯度下降。

训练策略

为克服阿姆达尔定律中添加芯片时回报递减问题,可减少全局同步次数,允许更多工作负载(半)独立运行。此法适合跨园区、多区域甚至跨大陆训练,因 GPU 间延迟和带宽存在层级差异。

园区内建筑间(小于 1 公里)延迟极低、带宽极高,可频繁同步。区域内(小于 100 公里)带宽仍大但延迟更高,需减少同步频率。各园区 GPU 数量可不同,易于负载平衡。如园区 A 有 10 万 GPU,B 有 7.5 万,B 的批量大小可为 A 的 75% 左右,同步时按 GPU 数量加权平均。

这一原则可适用于多区域及跨大洲的情况。由于延迟较高,应降低同步频率。本质上,这是一种分层同步方法。

打个比方,我们通常与近邻朋友会面频繁,与同一海岸其他城市的朋友会面较少,而与其他大洲城市的朋友会面更为罕见。

分层同步随机梯度下降(SGD)还有一个优势,即可减轻"掉队者"的影响。大多数"掉队者"仅在少数步骤中表现异常,但很快恢复正常。因此,同步频率越低,"掉队者"干扰同步过程的可能性就越小。由于每次迭代无需全局同步,掉队者的影响不再那么显著。分层同步 SGD 将成为未来多数据中心训练中的一项普遍创新。

另一前景方法是重用 Jeff Dean 2012 年 DistBelief 论文中异步参数服务器。模型副本处理自身数据批次,定期与参数服务器交换数据更新全局权重,类似 git 版本控制。简单实现可能引发收敛问题,但 OpenAI 有能力通过优化算法创新解决更新问题。

MetaAI 的 Branch-Train-Merge 论文描述类似思路:从现有大语言模型分支,在数据子集上训练,再合并回主分支。此经验可能整合入 OpenAI 多园区训练技术。但对 GPT-3 175B 或 GPT-4 1.8T 等模型,合并问题未完全解决,需更多工程资源管理合并和更新,确保训练收敛。

拓展为层级架构需设置多层参数服务器,模型副本不仅与最近服务器交换数据,服务器间也交换。最低层单个模型副本与最近参数服务器频繁更新,确保本地快速收敛同步。

本地参数服务器分组至更高层,每层汇总优化下层更新再向上传递。大量 GPU 情况下,参数服务器可能需以 FP32 格式保存主权重,类似英伟达 FP8 训练服务器。主权重 FP32 存储避免多 GPU 累积溢出,实际计算可能用 FP8 甚至更低精度如 MX6。

谷歌目前用强大分片器 MegaScaler 实现多园区训练,可在园区内多节点和区域内多园区间同步训练,为扩展单一训练任务芯片数提供稳定性可靠性优势。

然而,行业回归异步训练可能使 MegaScaler 成为谷歌瓶颈。基于同步训练原则的 MegaScaler 增加异步功能可能需大规模重构或重新开发。Pathways 设计考虑异步数据流,但当前生产案例都基于全同步 SGD 训练。谷歌有能力重新设计此软件栈。

跨区域数据中心联网主要受带宽和延迟限制。长远看延迟将成更大瓶颈,因光速限制信号传播速度。跨区域铺设光纤主要成本在许可和开挖,非光纤本身。降低带宽需求策略仍至关重要。

未来多园区、多区域训练集群上模型规模可达 100 万亿参数量级。区域内可用区间带宽可望扩展至 5Pbps,区域间合理估计为 1Pbps。如此高带宽下,园区间交换权重不再是主要瓶颈,400TB 权重(每参数 4 字节)传输仅需 0.64 秒。

 

英伟达 MetroX Infiniband 交换机用于 40 公里内网络连接,但 AI 实验室未用,仅少数非 AI HPC 集群在 10 公里内跨园区使用。每机箱仅 2 个 100Gbps 端口,40 公里内以太网解决方案生态更成熟。即使广泛使用 Infiniband 的微软,数据中心间也用以太网。

从 Gb 到 Tb:调制与复用技术的演进

当前数据中心内部网络通常为每个终端设备(如 GPU)提供高达 400Gbps 的光纤连接速度。预计明年,英伟达将通过升级其 Connect-X8 网络接口卡,将这一速度提升至 800Gbps,以满足 AI 应用的需求。

相比之下,电信网络通常需要在少量光纤上汇聚一个设施内多个设备和服务器的通信需求,并以更高速度传输。尽管数据通信中的 800Gbps 光模块通常在每对光纤上只能传输 100Gbps(如 DR8 格式),需要多对独立光纤,但在电信应用中,单对单模光纤已能实现 20Tbps 至 40Tbps 的传输速度,适用于海底光缆以及众多陆地和城域网络部署。

更大带宽主要通过以下方式实现:

  1. 采用更高阶调制方案,在给定波长上传输更多比特。
  2. 使用密集波分复用(DWDM)技术,将多个波长的光信号复合到一根光纤上。

在调制方面,数据通信通常采用基于 VCSEL 和 EML 的光模块,这些模块能实现 PAM4 调制。PAM4 是一种强度调制方案(即强度调制直接检测—IMDD 光学器件),通过使用四个不同电平进行信号传输,每个符号编码两个比特。

提高速度可通过两种方式:提高符号传输速率(以千兆波特 Gbd 为单位),或增加每个符号的比特数。例如,400G SR8 光模块以 26.6 Gbd 的速率传输符号,通过 PAM4 实现每符号 2 比特,在每对光纤上传输 50Gbps。将 8 对光纤组合到一个连接器中,总传输速率达 400Gbps。要达到 800Gbps,可将符号速率提高到 53.1 Gbd,同时仍在 8 条信道上使用 PAM4。然而,提高符号速率通常比采用更高阶调制方案更具挑战性。

16 阶正交振幅调制(16-QAM)是广泛应用于 ZR/ZR+ 光模块和电信中的高阶调制方案。它不仅对信号波的四种不同幅度进行编码,还使用两组相位相差 90 度的载波波,每组载波波有四种不同幅度,总共 16 种可能的符号,每个符号传输 4 比特。通过引入双极化,即使用水平和垂直极化的两组载波波,进一步扩展至 256 种可能的符号,传输 8 比特。大多数 400ZR/ZR+ 和 800ZR/ZR+ 光模块支持双极化 16-QAM(DP-16QAM),而运行在高质量光纤上的专用电信系统(具有更大规格尺寸)则可支持双极化 64-QAM(DP-64QAM),实现每符号 12 比特的传输。

实现基于不同相位的调制方案需要使用相干光学技术。相干光在实现相位调制方案时至关重要,因为非相干光源会导致信号出现不一致的干扰,无法恢复相位调制信号。

相干光学系统需要使用相干数字信号处理器(DSP)处理高阶调制方案,并配备可调谐激光器和调制器。400ZR 光模块通常使用硅光子技术以降低成本。由于可调谐激光器价格昂贵,业界正尝试使用成本较低的 O 波段激光器来实现简化的相干光模块。

ZR/ZR+ 光模块是日益流行的光收发器类型,采用相干光学技术,专为数据中心互连设计,能显著提高每对光纤的带宽,并实现 120 公里到 500 公里的更长传输距离。它们通常采用 OSFP 或 QSFP-DD 规格尺寸,与数据通信应用中常见的规格相同,可直接插入同一网络交换机使用。

传统电信系统也可用于数据中心互连,但需要更复杂的电信设备链,占用更多数据中心物理空间。而 ZR/ZR+ 可插拔模块可直接插入网络端口,两端直接连接,绕过了多个电信设备。

更高阶的调制方案显著提高了每对光纤的带宽,例如与使用 PAM4 的 IMDD 光模块相比,双极化 16-QAM 可将带宽提高 8 倍。然而,长距离传输仍受限于光纤本身,因此可通过密集波分复用(DWDM)进一步增加每对光纤的带宽。DWDM 将多个光波长合并到一对光纤中传输。例如,在 C 波段(1530nm 至 1565nm)和 L 波段(1565nm 至 1625nm)可各合并 76 个波长到同一光纤中。

如果每个波长传输 800Gbps,该系统将能在单对光纤上实现高达 121.6Tbps 的传输。海底光缆通常最大化利用波长数量,部分部署可能使用少于 16 个波长,但也有采用 96 个波长的部署,当前典型部署目标是在单对光纤上实现 20 至 60Tbps 的传输能力。

许多部署初期仅激活 C 波段的少数波长,随客户需求增长逐步激活更多 C 波段波长,最终扩展到 L 波段,从而大幅提升现有光纤的传输速度。

超大规模运营商的电信网络部署

美国大多数城市拥有充足的光纤资源,可满足 AI 数据中心互连所需的巨大带宽需求。海底光缆部署通常仅包含 8 至 12 对光纤,因成本与光纤对数量成正比。相比之下,陆地光缆成本主要集中在劳动力、设备及使用权上,因此公司在城市地区铺设光缆时往往会部署数百甚至数千对光纤。

跨海训练的难度显著高于陆地训练。

典型的光纤业务模式通常预留相当数量的闲置光纤对,以应对未来需求。不仅城市,任何主要公路、输电线路、铁路或基础设施旁通常都有光缆铺设。在基础设施建设项目中,由于现场已有挖掘设备,增加光纤铺设几乎不需额外成本。

超大规模运营商倾向于自建网络,而非与电信服务商合作,他们直接与设备供应商和建筑公司合作,以满足长途、城市和数据中心互连需求。

数据中心互连通常通过铺设大量光纤对连接相距不超 50 公里的两个数据中心。超大规模运营商可将 ZR 光模块插入两个远程数据中心的网络交换机,调节至不同波长,然后通过无源多路复用器(DWDM 链路)将多达 64 个光模块组合到一对光纤上。使用 400ZR 时,每对光纤可实现 25.5 Tbps 的传输速度。另一种方式是将每个 ZR 光模块插入独立的光纤对。

更复杂的电信系统也可实现 DWDM,能将更多 ZR 光学信号多路复用到更少的光纤对上,并支持点对点之外的网络连接。但这需要额外机架空间放置电信设备,包括路由器、光路交换器(ROADM)和 DWDM 多路复用器/解复用器。

由于主要成本在于挖掘光纤沟渠,大多数超大规模运营商发现部署超出实际需求的光纤对更为简单,这样可节省数据中心内部空间,避免复杂的电信部署。仅在光纤容量受限时,他们才会考虑在短距离内部署广泛的电信系统,这种情况在美国以外地区较为常见,超大规模运营商可能被迫在光纤资源稀缺的城市中仅使用 2 至 4 对光纤。

然而,在长途网络中,超大规模运营商需使用与数据通信产品截然不同的全面电信产品系列。典型长途网络至少需要几种基本系统,包括转发器、DWDM 多路复用器/解复用器、路由器、放大器、增益均衡器和再生站点,多数情况还包括 ROADM(可重配置光添加/丢弃多路复用器)和 WSS(波长选择开关)。

转发器在电信领域功能类似光模块,但价格更高,工作功率水平更高。一侧与实际电信网络(线路侧)进行传输/接收,另一侧提供多种组合的端口连接客户设备(客户侧)。例如,一个转发器可能在线路侧提供 800Gbps,客户侧提供 4 个 200Gbps 的光电端口,但客户可选择多种端口容量和电气/光学组合。客户侧可连接到数据中心内的路由器或交换机,线路侧将连接到多路复用器,通过 DWDM 组合多个转发器的信号,并可能通过 ROADM 实现更复杂的网络拓扑。

DWDM 通过多路复用器和解复用器(mux/demux)工作,将来自每个转发器的略有不同波长的光信号组合到一对光纤中。每个转发器都可调节,选择特定波长的光进行多路复用。使用 ROADM 时,转发器通常连接到无色多路复用器/解复用器,然后连接到波长选择开关(WSS),使 ROADM 能动态调节转发器至特定波长,优化网络目标。

光放大器用于抵消光信号在传输过程中的衰减,通常每 60 到 100 公里放置一次,可直接放大光信号而无需转换为电信号。每三台放大器后需一个增益均衡器,确保不同波长的光信号在不同速度下传输时能够均衡,避免错误。在跨越数千公里的超长距离部署中,需要再生,将光信号转换为电信号,重新整形和定时,并通过另一组转发器重新传输。

对于连接多个节点且有多个中转点用于添加或接收流量的网络,需使用 ROADM。它可在网络特定位置光学添加或丢弃特定波长的光信号,无需将信号转换为电信号进行处理或路由。ROADM 还具有控制平面,可主动发现和监测网络状态,了解光纤网络上的空闲通道、信号噪声比、保留波长,并能控制转发器,将线路侧调节至适当波长。

这些不同组件通常组合在一个模块化机箱中。

Ciena、Nokia、Infinera 和 Cisco 是全球主要的电信系统和设备供应商,而 Lumentum、Coherent、Fabrinet 和 Marvell 为这些主要供应商提供各种子系统和主动组件。目前,组件厂商的优势主要体现在 ZR/ZR+ 光学用于数据中心互连上,但随着超大规模运营商和其他运营商需要在相邻数据中心之外进行训练,他们可能会大幅增加对高平均售价电信设备和系统的支出。

非云客户对电信设备的需求似乎已触底,可能很快进入周期复苏阶段,从而提升各种电信供应商的前景。

OpenAI与微软的谷歌超越策略

如前所述,微软的标准设计在密度方面较谷歌存在劣势。尽管两家公司的数据中心建筑面积相当,但微软设施的兆瓦容量较低。

谷歌数据中心的 PUE(电源使用效率)更低,意味着更多电力可用于 IT 设备,同时减少网络设备、CPU 和散热系统的能耗。因此,尽管微软也有建设大型园区的经验,但其建设周期通常更长,整体规模也小于谷歌。

微软最大的 AI 训练基地位于凤凰城,该地点是其最大规模部署之一,未来将扩展至 10 座建筑。利用已获批的多个场地,微软计划自建 24 个数据中心。

为进一步扩容,微软在凤凰城周边积极租赁,这将显著扩大其在该地区的占地。然而,并非所有这些数据中心都将用于 AI 训练,部分可能服务于其他用途。

为在规模上超越谷歌,微软和 OpenAI 不能依赖微软既有的数据中心设计。他们正通过自建大幅提高新设施的密度,尤其是在密尔沃基,并与 Compass、QTS、Crusoe、Oracle、CoreWeave 等合作伙伴在全美范围内扩建。在密尔沃基和亚特兰大(通过 QTS),微软正在建设全球最强大的单体建筑,采用全液冷设计,专用于下一代 AI 硬件。

位于威斯康星州的自建超级园区建成后,将成为微软或谷歌所有设施中最大的单一数据中心园区。Meta 也在积极推进雄心勃勃的单一站点计划。

这仅是部分场地的概览,但其扩张速度惊人。微软和 OpenAI 庞大基础设施的另一部分位于德克萨斯州,通过与 Oracle+Crusoe 以及 CoreWeave+Core Scientific 在阿比林和丹顿的合作进一步扩大规模。

值得注意的是,在打造 AI 集群的过程中,微软还涉足了加密货币挖矿领域。CoreWeave 租用了现有的 Core Scientific 加密矿场设施,而 Oracle 则与 Crusoe 合作使用其园区,Crusoe 此前也深耕于加密货币领域。比特币矿工习惯于高密度、高功率的数据中心,许多矿场签署了大规模的电力供应合同。

Core Scientific 的 10-K 文件显示,其在多个站点拥有 1.2GW 的合同容量。与全新建设数据中心相比,重新利用加密货币矿场的时间表要短得多,这使得这些设施在 AI 集群建设中的转型更加迅速和高效。

该公司正大规模转向 AI 的数据中心托管,并与 CoreWeave 达成了一项大规模协议,涉及 382MW 的 IT 电力供应,且交付时间较短。CoreWeave 将采购 GB200 GPU,并将其租赁给微软供 OpenAI 使用。我们认为,最关键的地点将是位于德克萨斯州丹顿的矿场。

与 X.AI 的现场发电机类似,这个数据中心也拥有充足的电力基础设施。该站点拥有一个 225MW 的天然气发电厂,位于所有加密矿场的中心位置。加密矿场将被拆除并进行大规模改造,替换为符合数据中心级别的电力和冷却系统。但与 PUE 高于 1.3 的自建数据中心相比,这个站点的效率仍然较低。

另一个重要的园区由 Crusoe 在德克萨斯州阿比林开发。Crusoe 因其在北达科他州和怀俄明州的创新性伴生气挖矿站点而闻名,正在建设一个吉瓦级数据中心,并将其首期部分租赁给 Oracle,后者将其装配为 GPU 和网络设备,然后再租给 OpenAI。通过实时低分辨率卫星图像,我们可以观察到该园区的快速扩张。我们拥有精确详细的季度历史和预测电力数据,涵盖超过 5,000 个数据中心。这些数据包括 AI 实验室、超大规模云提供商、新兴云平台和企业的数据中心集群建设状况。

在美国其他地区,还有几个规模庞大的数据中心。为简明起见,我们不会在简报中逐一介绍,但核心要点非常清晰:

通过雄心勃勃的自建计划、积极的租赁策略、大型合作伙伴关系以及创新的超高密度设计,微软将以多吉瓦级集群规模引领 AI 训练市场。

吉瓦级巨型集群

微软正着手将多个园区互联,打造一个多吉瓦级的庞大训练集群。光纤公司 Lumen Technologies 和 Zayo 已签约合作,为我们提供了一些线索。

Lumen 和 Zayo 的参与表明,微软可能正利用先进的光纤技术和基础设施来支持其大规模 AI 训练集群。这种大规模的数据中心互联需求意味着,微软正在构建一个能处理海量数据的高性能计算网络,通过高速光纤网络实现多园区间的低延迟通信和数据传输,以满足 AI 模型训练需求。

7 月 24 日,Lumen 宣布与微软达成协议,互连多个数据中心。几天后,Lumen 又与 Corning 签署协议,在未来两年内保留 10% 的产能。我们预计未来还会有更多类似协议出现,这可能会极大扩展 Corning 的业务。

Lumen Technologies(纽交所代码:LUMN)于 2024 年 9 月 4 日宣布,由于 AI 推动的巨大连接需求,其已获得 50 亿美元的新业务。各行各业的大公司都在急于获取光纤容量,随着 AI 需求激增,这一资源变得愈发珍贵且可能供不应求。

此外,Lumen 正与客户积极洽谈,希望再获得 70 亿美元的销售机会,以满足日益增长的客户需求。

Lumen Technologies 是一家大型电信公司,业务涵盖多个领域,其中最重要的是企业部门。Lumen 直接与企业合作,依托其庞大的光纤网络,解决他们的连接需求。

如前所述,该业务受到容量利用率问题困扰,大量租用或拥有的光纤已部署但处于闲置状态,即所谓的暗光纤。Lumen 是美国最大的暗光纸供应商之一,与 Zayo、AT&T 和 Crown Castle 并驾齐驱。

企业电信业务也面临挑战,由于互联网价格下降,许多企业已将流量转移到互联网上运行,这损害了对 MPLS(多协议标签交换,一种主要的企业产品,提供远程办公室之间的数据连接)的需求,导致价格压力和资源利用率不足。同时,电信容量的购买者因超大规模云服务商的崛起而变得更加集中,而这些云规模玩家往往倾向于自建电信网络。

这意味着许多光纤容量处于闲置状态,许多光纤虽已点亮但只使用了很少的波长,并仍在使用老旧的调制方案和较慢的数据速率。如果像 AI 训练需求激增这样的推动力出现,升级这些闲置光纤容量将成为一个巨大机遇,因为这可以显著提升网络的传输能力。

维持如此庞大的基础设施需要大量资本支出,与许多同行一样,Lumen 面临现金流问题和巨额债务负担。该公司拥有接近 200 亿美元的金融债务,几乎没有产生任何自由现金流,其收入增长趋势保持稳定甚至有所下降。

多园区 AI 训练的兴起改变了上述局面,因为它需要巨大的带宽需求。微软是促成 50 亿美元协议的关键客户,并且可能还有另一笔 70 亿美元的交易正在酝酿中。

像 Lumen 这样的公司能够达成这样的交易(并且提到可能会有价值 70 亿美元的交易)是因为它们拥有广泛的未使用光纤网络。所有这些闲置容量和现有路线使超大规模云计算公司能够以成本效益高的方式构建大规模、超高带宽的网络。更重要的是,市场投放时间得以缩短,利用现有基础设施加速了原本需要数年时间的进程,尤其是在需要挖掘特别隧道的情况下。

对于 Lumen 来说,这笔 50 亿美元交易的经济效益如下:

  1. 商业结构采用的是 IRU(不可撤销使用权),这是光纤行业的标准协议,本质上类似于资本化租赁。此类协议的典型期限为 20 年。
  2. 交易价值的 85-90% 与基础设施相关,剩余部分涉及运营和维护,以及电力和托管服务。
  3. Lumen 估计该交易的现金利润率为 30-35%,这意味着税前利润约为 15 亿美元。
  4. 大部分基础设施费用将在合同的前 3-4 年内进行现金预付款,剩余部分将随着里程碑的实现而增加,并在合同期内按年费形式收取。

尽管与该交易相关的资本支出(CAPEX)和运营支出(OPEX)增加导致 EBITDA 下降,该交易仍大幅提升了 Lumen 的年度自由现金流预期。

这可能只是一个开始。明年电信行业将迎来显著增长,而这个沉寂已久的电信公司显然正引领着收入的大幅增长。光纤公司开始注意到这个机会,但我们相信,实际影响将让投资者和该领域的公司都感到惊讶。以整个交换机、路由器和广域网(WAN)市场为例,其规模仅为 750 亿美元,因此一家公司 50 亿至 100 亿美元的增量投资将产生巨大影响。

我们预计,未来将有超过 100 亿美元的电信资本支出专门用于多数据中心训练。这些都是额外的增量支出。同时,电信市场目前正处于周期性低谷,这是一个新的增量驱动因素,伴随着市场的周期性回升。

受益的公司

除了 Corning 和 Lumentum,Fabrinet 在数据中心互联产品,尤其是 400ZR 产品线方面也颇具优势。在截至 2024 年 6 月的财年第四季度,400ZR 产品线贡献了 Fabrinet 光学收入的 10%。

Fabrinet 在电信领域的布局远不止于 400ZR。其电信业务在 2024 财年第四季度占总收入的近 40%。同时,Fabrinet 还拥有强大的数据通信收发器产品线,负责生产英伟达用于连接 GPU 的 800G 收发器。

ZR 光学的持续增长是 Fabrinet 预计下季度电信业务环比增长的主要驱动力之一。随着 ZR 光学收入占比从约 10% 提升至超过 20%,Fabrinet 有望从中受益。作为一家专注于光学系统和组件的合同制造商,Fabrinet 被誉为行业的 “台积电”,凭借其规模优势和强大的市场地位,有望持续受益。

在 2024 财年,Cisco 成为 Fabrinet 的第二大客户,仅次于英伟达,贡献了 13% 的销售额。加上其他电信客户的强劲需求,Fabrinet 的电信业务展现出强劲的增长势头。

此外,Fabrinet 新近赢得了 Ciena 的订单,预示着 Ciena 明年的订单量有望增长。过去,Lumentum 和 Infinera 曾是 Fabrinet 的重要客户,这两家公司的复苏也将助力 Fabrinet 的电信收入增长。

Lumentum 是另一家拥有电信业务的企业,预计其收入将实现连续季度的显著增长,主要得益于 ZR/ZR+ 光学器件、ROADM 以及 C+L 波段产品的需求增长。

与 Lumentum 的乐观预期不同,Coherent 对未来的展望较为谨慎。尽管其 400ZR+ 收发器业务表现强劲,但 Coherent 预计短期内电信市场整体仍将疲软。电信设备库存问题持续困扰着 Coherent,导致其电信收入环比下降 6%,同比下降 38%。不过,Coherent 的前瞻指引表明,电信市场的底部可能已经接近。

尽管 Coherent 继承了 Finisar 的传统,但由于业务多元化,电信业务在其总收入中的占比已大幅缩水。我们估计,截至 2024 年 6 月的财年下半年,电信业务仅占其总收入的 13%。

相比之下,我们认为 Lumentum 的业务组合更为均衡,资本结构也更为稳健。如果 Coherent 能持续在数据通信业务上发力,并在电信领域取得突破,其债务或将推动股本回报的提升。

Ciena 和 Cisco 均为电信行业巨头,产品线涵盖线路卡/收发器、路由器、复用器/解复用器和 ROADM 等传统电信设备。Cisco 产品线更为多元,还涉足软件业务,而 Ciena 则专注于核心电信设备。Infinera 也深耕电信领域,但即将被并入诺基亚。

在众多电信设备制造商中,Ciena 对电信行业的专注度最高,其业务重心聚焦于电信网络硬件。Ciena 多次提及云客户的强劲需求,并于 2024 财年第二季度财报电话会议中明确表示,已获得大量针对明年网络建设的订单,这些订单与 AI 流量需求密切相关。

虽然 Ciena 的主营业务仍是传统电信网络设备,而非数据中心互连,但其特别强调了 18 项 400ZR+ 和 800ZR+ 订单的获取。ZR 光学产品为 Ciena 带来了增值机会,因为其业务主要集中在大都会和长途网络。

我们认为,Ciena 在这些细分市场占据了领先地位。随着支持 AI 训练的电信网络对更高链路密度的需求,Ciena 在内容和数量上均有增长潜力。在所有电信设备制造商中,Ciena 在 AI 电信网络建设中的比例敞口最高。

Cisco 强调,在截至 2024 年 7 月的财年下半年,超大规模客户的订单实现了两位数增长,成功抵消了服务商业务的疲软。此外,公司还斩获了 10 亿美元的 AI 订单,主要集中在以太网和光学产品领域,并预计在 2025 财年再揽获 10 亿美元的 AI 相关订单。

尽管 Cisco 在 2021 年收购了 Acacia,以在相干 DSP 和 ZR 光学等领域占据有利地位,但近几期财报电话会议中鲜少提及 ZR 光学的机会。考虑到 Cisco 庞大的营收基数,即使 AI 数据中心互连需求大幅增长,对 Cisco 营收的百分比影响也将相对有限。

最后来看 Marvell。通过收购 Inphi,Marvell 在 PAM4 DSP 领域占据了主导地位,并获得了包括 Deneb、Orion 和 Canopus 在内的一系列相干 DSP 产品。

我们认为,历史数据显示,在 Inphi/Marvell 业务中,相干 DSP 的占比相对较小。然而,这一格局正在发生转变。Marvell 的 ZR 光学业务不仅受益于其相干 DSP 产品组合,还包括 COLORZ、COLORZ 400ZR/ZR+ 和 COLORZ 800ZR/ZR+ 等数据中心互连收发器。

这项 ZR 业务正迅猛增长,并有望成为其业务的重要组成部分,甚至与规模可观的 PAM4 业务相媲美。ZR 收发器的平均售价远高于 IMDD 收发器,且出货量有望持续大幅增长。

Marvell 在这一产品领域拥有更强的竞争优势,其 COLORZ 系列产品市场前景广阔。该公司已在一大主要超大规模客户处取得重大突破,且出货量持续大幅增长。此外,Marvell 还为该产品拓展了多个新客户。这种影响将远远超出任何潜在的短期 LRO 问题,

参考资料:Patel, D., Nishball, D., & Ontiveros, J. E. (2024, September 4). Multi-Datacenter Training: OpenAI's Ambitious Plan To Beat Google's Infrastructure. SemiAnalysis. Retrieved from https://www.semianalysis.com/p/multi-datacenter-training-openais