AI 基础设施的军备竞赛正以前所未有的速度升级。谷歌最新发布的下一代张量处理单元（TPU）平台 Ironwood，以其惊人的性能飞跃，再次推高了这场竞赛的门槛。
根据谷歌在 Hot Chips 2025 大会上披露的信息，其第七代 TPU 架构 Ironwood 在核心性能上实现了指数级增长，单颗 Ironwood 芯片的峰值算力高达 4614 TFLOPs。与谷歌 2022 年推出的 TPU v4 相比，Ironwood 的单芯片算力提升了超过 16 倍；即便是与去年发布的 TPU v5p 相比，也增长了近 10 倍。
<img class=" wscnph" src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/6cedefb8-e2b9-40ba-97d8-9526e3a18eb7.png?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="1024" height="568" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/6cedefb8-e2b9-40ba-97d8-9526e3a18eb7.png"/>
Ironwood 的发布不仅是单个芯片的革新，更是一套完整的、旨在实现极致扩展性的系统级解决方案。谷歌同时公布了围绕该芯片构建的机架、网络互连和冷却系统，展示了其将尖端算力转化为大规模、高效率生产力的全栈能力。
<h2>性能飞跃：单芯片算力提升超 16 倍</h2>
谷歌此次公布的数据清晰地展示了其 TPU 平台性能的演进路线。具体来看，Ironwood 的单芯片峰值算力达到 4614 TFLOPs，并配备了 192 GB 的高带宽内存（HBM），带宽高达 7.4 TB/s。与之对比，2022 年发布的 TPU v4 单芯片算力为 275 TFLOPs，配备 32 GB HBM，带宽为 1.2 TB/s。而 2023 年推出的 TPU v5p，单芯片算力为 459 TFLOPs，配备 95 GB HBM，带宽为 2.8 TB/s。
<img class=" wscnph" src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/42cd1450-46d4-48cd-b792-8cbd867ed549.png?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="1024" height="578" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/42cd1450-46d4-48cd-b792-8cbd867ed549.png"/>
从 TPU v4 到 Ironwood，谷歌在短短数年内将单芯片算力提升了一个数量级以上，这反映了 AI 模型对计算需求的爆炸性增长，以及芯片设计厂商为满足这一需求所做的努力。
在超级计算集群（Superpod）层面，一个 Ironwood Superpod 将包含 9216 颗芯片，规模相较于前几代产品进一步扩大。
<img class=" wscnph" src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/59f08127-86f8-4ebd-a9ee-06b07040ee34.png?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="1024" height="567" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/59f08127-86f8-4ebd-a9ee-06b07040ee34.png"/>
<h2>系统架构：从芯片到超级计算集群的扩展</h2>
强大的芯片性能必须依赖精密的系统设计才能充分发挥。谷歌详细介绍了 Ironwood 从芯片到机架再到集群的模块化、可扩展架构。该系统的核心是 Ironwood SoC（片上系统）芯片，四颗这样的芯片被集成在一块 Ironwood PCBA 主板上。

随后，16 个 PCBA 主板像托盘一样堆叠起来，构成一个包含 64 颗芯片的 Ironwood TPU 机架。在机架内部，谷歌沿用了至少三代产品的 4x4x4 3D 环面（3D Torus）网络拓扑，形成一个逻辑上的计算单元。为了实现更大规模的扩展，谷歌采用其专有的芯片间互连技术（ICI），通过混合使用 PCB 走线、铜缆和光纤链路，将多个机架连接成一个 Superpod。
据披露，该系统最多可将 43 个计算单元（每个单元 64 颗芯片）连接起来，形成一个拥有 1.8 Petabytes 网络带宽的庞大集群。
<img class=" wscnph" src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/bd3589a4-a196-4fe8-84a6-88cbfc7c9ad0.png?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="1024" height="568" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/bd3589a4-a196-4fe8-84a6-88cbfc7c9ad0.png"/>
惊人算力的背后是巨大的能源消耗和散热挑战。资料显示，一个满载的 Ironwood 机架功耗可超过 100 千瓦，这对数据中心的供电和冷却系统提出了严苛要求。为应对这一挑战，谷歌为 Ironwood 机架配备了高效的液体冷却系统。
该系统包括用于冷却剂分配的 CBU 机架，以及在机架顶部安装的防滴漏盘，用于监测任何潜在的液体泄漏。在供电方面，机架采用 416 伏交流电输入，通过整流器转换为直流电为系统供电。

谷歌-A

谷歌-C

谷歌其第七代 TPU 架构 Ironwood 在核心性能上实现了指数级增长。单颗 Ironwood 芯片的峰值算力高达 4614 TFLOPs，与谷歌 2022 年推出的 TPU v4 相比，Ironwood 的单芯片算力提升了超过 16 倍。谷歌同时公布了围绕该芯片构建的机架、网络互连和冷却系统等。

- 谷歌发布的 Ironwood TPU 平台单芯片算力达 4614 TFLOPs，提升超 16 倍。  
- Ironwood 系统设计支持模块化扩展，最大可连接 43 个计算单元。  
- 机架功耗超 100 千瓦，需高效液体冷却系统应对能源消耗挑战。  

AI 算力竞赛升级，谷歌发布下代 Ironwood TPU 架构，性能暴增 16 倍，单芯片算力达 4614 TFLOPs