
AI 算力竞赛升级,谷歌发布下代 Ironwood TPU 架构,性能暴增 16 倍,单芯片算力达 4614 TFLOPs

谷歌其第七代 TPU 架构 Ironwood 在核心性能上实现了指数级增长。单颗 Ironwood 芯片的峰值算力高达 4614 TFLOPs,与谷歌 2022 年推出的 TPU v4 相比,Ironwood 的单芯片算力提升了超过 16 倍。谷歌同时公布了围绕该芯片构建的机架、网络互连和冷却系统等。
AI 基础设施的军备竞赛正以前所未有的速度升级。谷歌最新发布的下一代张量处理单元(TPU)平台 Ironwood,以其惊人的性能飞跃,再次推高了这场竞赛的门槛。
根据谷歌在 Hot Chips 2025 大会上披露的信息,其第七代 TPU 架构 Ironwood 在核心性能上实现了指数级增长,单颗 Ironwood 芯片的峰值算力高达 4614 TFLOPs。与谷歌 2022 年推出的 TPU v4 相比,Ironwood 的单芯片算力提升了超过 16 倍;即便是与去年发布的 TPU v5p 相比,也增长了近 10 倍。

Ironwood 的发布不仅是单个芯片的革新,更是一套完整的、旨在实现极致扩展性的系统级解决方案。谷歌同时公布了围绕该芯片构建的机架、网络互连和冷却系统,展示了其将尖端算力转化为大规模、高效率生产力的全栈能力。
性能飞跃:单芯片算力提升超 16 倍
谷歌此次公布的数据清晰地展示了其 TPU 平台性能的演进路线。具体来看,Ironwood 的单芯片峰值算力达到 4614 TFLOPs,并配备了 192 GB 的高带宽内存(HBM),带宽高达 7.4 TB/s。与之对比,2022 年发布的 TPU v4 单芯片算力为 275 TFLOPs,配备 32 GB HBM,带宽为 1.2 TB/s。而 2023 年推出的 TPU v5p,单芯片算力为 459 TFLOPs,配备 95 GB HBM,带宽为 2.8 TB/s。

从 TPU v4 到 Ironwood,谷歌在短短数年内将单芯片算力提升了一个数量级以上,这反映了 AI 模型对计算需求的爆炸性增长,以及芯片设计厂商为满足这一需求所做的努力。
在超级计算集群(Superpod)层面,一个 Ironwood Superpod 将包含 9216 颗芯片,规模相较于前几代产品进一步扩大。

系统架构:从芯片到超级计算集群的扩展
强大的芯片性能必须依赖精密的系统设计才能充分发挥。谷歌详细介绍了 Ironwood 从芯片到机架再到集群的模块化、可扩展架构。该系统的核心是 Ironwood SoC(片上系统)芯片,四颗这样的芯片被集成在一块 Ironwood PCBA 主板上。
随后,16 个 PCBA 主板像托盘一样堆叠起来,构成一个包含 64 颗芯片的 Ironwood TPU 机架。在机架内部,谷歌沿用了至少三代产品的 4x4x4 3D 环面(3D Torus)网络拓扑,形成一个逻辑上的计算单元。为了实现更大规模的扩展,谷歌采用其专有的芯片间互连技术(ICI),通过混合使用 PCB 走线、铜缆和光纤链路,将多个机架连接成一个 Superpod。
据披露,该系统最多可将 43 个计算单元(每个单元 64 颗芯片)连接起来,形成一个拥有 1.8 Petabytes 网络带宽的庞大集群。

惊人算力的背后是巨大的能源消耗和散热挑战。资料显示,一个满载的 Ironwood 机架功耗可超过 100 千瓦,这对数据中心的供电和冷却系统提出了严苛要求。为应对这一挑战,谷歌为 Ironwood 机架配备了高效的液体冷却系统。
该系统包括用于冷却剂分配的 CBU 机架,以及在机架顶部安装的防滴漏盘,用于监测任何潜在的液体泄漏。在供电方面,机架采用 416 伏交流电输入,通过整流器转换为直流电为系统供电。

