苹果 AI 带火谷歌 TPU,背后大杀器 OCS 也是算力重要一环

华尔街见闻
2024.07.31 06:25
portai
我是 PortAI,我可以总结文章信息。

苹果在官网论文中披露,其训练模型采用了谷歌的 TPUv4 和 TPUv5 芯片,这些芯片能提供比英伟达 A100 更高的性能和能效。TPU 是 Google 推出的专用处理器,擅长大型矩阵运算,适用于深度学习中的张量运算任务。相比于 GPU,TPU 在特定 AI 计算任务上更快,但在其他任务上可能不如 GPU 灵活或高效。 苹果在 AI 领域中依赖谷歌的芯片和软件,但具体依赖程度未透露。

当地时间 7 月 29 日,苹果在官网的一篇论文中披露,其训练模型采用了谷歌研发的第四代 AI ASIC 芯片 TPUv4 和更新一代的芯片 TPUv5。

早在今年 6 月的全球开发者大会(WWDC)期间,媒体已经在苹果公布的技术文件细节中发现,谷歌成为苹果在 AI 领域发力的另一位赢家。苹果的工程师在构建基础模型时运用了公司自研的框架软件及多种硬件,包括仅在谷歌云上可用的张量处理单元(TPU)。只不过,苹果未透露,相比英伟达等其他 AI 硬件供应商,苹果有多依赖谷歌的芯片和软件。

TPU—AI 训练的专用芯片

TPU(张量处理器)是 Google 2016 年首次推出的用于机器学习的专用处理器。

该处理器擅长大型矩阵运算,可以更高效地训练模型,芯片内集成的 HBM 也有助于更大规模的模型训练,此外多个 TPU 可以组成 Pod 集群,极大地提升了神经网络工作负载的效率。

对比当下市场主流的英伟达 GPU 产品,其主要有以下特点:

核心数量上,GPU 拥有大量的处理核心,可以同时处理多个任务,而 TPU 其核心数量相对较少,但每个核心都针对深度学习的工作负载进行了优化。

适用范围上,GPU 提供了一定的通用性,可以处理包括图形渲染、科学计算和深度学习等任务,而 TPU 则专注于深度学习中的张量运算,这使得 TPU 在特定 AI 计算任务上可能比 GPU 更快,但在其他类型的任务上可能不如 GPU 灵活或高效。

应用上,GPU 因其通用性和灵活性而被广泛应用于各种计算密集型任务,包括但不限于游戏、电影制作、科学研究、金融建模和深度学习训练。TPU 由于其专门为深度学习优化,通常用于需要高吞吐量和低延迟的深度学习推理任务,如搜索引擎、推荐系统和自动驾驶汽车。

性能上,谷歌曾在一篇论文中表示,对于规模相当的系统,TPU v4 可以提供比英伟达 A100 强 1.7 倍的性能,同时在能效上也能提高 1.9 倍。

此外据华创证券,2023 年 Google 先后推出 TPUv5e 及 TPUv5p 两款芯片。其中 TPU v5e,可在同样成本情况下,为大语言模型和生成式 AI 模型提供相较于 TPUv4 高达 2 倍的训练性能和 2.5 倍的推理性能;TPUv5p 则是 Google 有史以来功能最强大、可扩展性最强、灵活性最高的 AI 芯片,其训练大型 LLM 模型的速度为 TPUv4 的 2.8 倍,较 TPUv5e 有近 50% 的提升。当前,TPU 已成为 Google 大模型训练的主力军。从 TPU 的使用情况来看,目前 Google 90% 以上的模型训练均在 TPU 上进行。

谷歌的大杀器——OCS

另外,据此前 Google 论文的数据,在搭建 TPUv4 的集群时,与传统 Infiniband 交换机方案相比,OCS(光路交换机)方案成本更低,功耗更低,部署更快。

OCS 是谷歌自研的数据中心光交换机,它通过 MEMS 系统的阵列组反射实现光信号交换,取代原有光电混合交换机体系。

中泰证券指出,谷歌 Gemini 主要使用 TPU v4 和 TPU v5e 大规模训练,且自 TPU v4 起开始使用 OCS 光交换机,其使用基于 MEMS 的微镜阵列在 64 个 TPU slice 之间切换,能够根据实际网络中的数据量,灵活选择数据链路和网络拓展,意味着当网络中部署更高速率的光模块和交换机时,原有的低速器件可以继续使用,降低成本功耗。预计大规模 AI 芯片组网有望进一步扩张高速率光模块需求,OCS 全光方案或为光器件带来全新增量。

产业方面,华创证券表示,基于 MEMS 的光交换方案在对数据速率及波长不敏感、低功耗、低延迟等方面都具备优势,Google 选择自研 OCS、光模块和光环形器三大主要器件,以构成一个低成本高效益的大规模光交换系统。其中:

1)MEMS 反射镜是 OCS 的核心组成器件,OCS 的创新性应用,有助于 MEMS 代工业务的拓展。

2)光模块为适配 OCS 需求,被重新定制化设计为使用环形器 +CWDM4/8 的最新一代 Bidi OSFP 封装。光模块国内企业具有较强竞争力,未来应用技术难度更高,客户粘性有望持续提升;

3)环形器被创新性引入光模块内,传输效率进一步提升。环形器供应链较为成熟,核心器件法拉第旋转片国产化程度较低,偏振分束器近年国内厂商已具备量产能力;

4)光芯片与电芯片因更高链路预算需求而配套升级,EML 及 DSP 芯片均以海外供应商为主,国产化程度较低;

5)铜缆与光纤受益 Rack 内外连接,带来较大需求。