--- title: "AI 芯片 “分工” 时刻!谷歌第八代 TPU,为什么是两款?" type: "News" locale: "zh-CN" url: "https://longbridge.com/zh-CN/news/283677689.md" description: "谷歌用两款芯片回答一个问题——效率。TPU 8t 强化超大规模训练与吞吐效率,借 SparseCore 与 FP4 及新网络架构大幅提升算力扩展能力;TPU 8i 则聚焦低延迟推理,通过超大 SRAM 与 CAE 提升并发与解码效率。两者共享软件栈并深度整合云 AI 基础设施,直指 AI 工作负载分化与算力成本优化趋势。" datetime: "2026-04-22T13:39:27.000Z" locales: - [zh-CN](https://longbridge.com/zh-CN/news/283677689.md) - [en](https://longbridge.com/en/news/283677689.md) - [zh-HK](https://longbridge.com/zh-HK/news/283677689.md) --- # AI 芯片 “分工” 时刻!谷歌第八代 TPU,为什么是两款? 谷歌将 AI 芯片战略推向新阶段。 在周三拉斯维加斯举行的 Google Cloud Next 2026 大会上,谷歌云发布第八代张量处理器(TPU)的两款新品——专为训练设计的 TPU 8t 与专为推理优化的 TPU 8i,这是谷歌首次将训练与推理任务拆分至独立芯片,标志着其 AI 硬件路线的重大转向。 两款芯片均计划于 2026 年晚些时候正式对外供应。与去年 11 月发布的第七代 Ironwood TPU 相比,TPU 8t 在同等价格下性能提升 2.8 倍,TPU 8i 性能提升 80%;两款芯片每瓦性能均较上一代提升逾一倍,TPU 8t 达 124%,TPU 8i 达 117%。 谷歌高级副总裁兼 AI 与基础设施首席技术官 Amin Vahdat 表示,随着 AI 智能体的兴起,"业界将受益于针对训练和推理各自需求专门优化的芯片"。Alphabet 首席执行官桑达尔·皮查伊亦在博客中指出,这一架构旨在"以具有成本效益的方式,提供同时运行数百万个智能体所需的大规模吞吐量和低延迟"。 ## 为何拆分为两款芯片 此次将第八代 TPU 一分为二,是谷歌对 AI 工作负载日益分化趋势的直接回应。预训练、后训练与实时推理在计算特性上已显著分化:训练任务追求极致吞吐量与规模扩展,推理任务则对延迟和并发更为敏感。单一芯片难以同时兼顾两类场景的效率最优。 谷歌在技术博客中指出,第八代 TPU 的设计哲学围绕可扩展性、可靠性与效率三大支柱,两款芯片共享谷歌 AI 软件栈的核心基因,但各自针对不同瓶颈进行了专项优化。 两款芯片均集成了基于 Arm 架构的 Axion CPU,以消除数据预处理延迟造成的主机侧瓶颈,确保 TPU 计算单元持续满载运行。 ## TPU 8t:面向超大规模训练的算力引擎 TPU 8t 定位为预训练与嵌入密集型工作负载的专用加速器,谷歌称其能够"将前沿模型开发周期从数月压缩至数周"。 在规模上,TPU 8t 最多可将 9600 块芯片组合为单一超级计算节点(superpod),并通过 JAX 与 Pathways 框架将分布式训练扩展至单一集群超过 100 万块 TPU 芯片。 芯片层面,TPU 8t 引入了三项关键技术创新。 其一是 SparseCore 加速器,专门处理嵌入查找中不规则的内存访问模式,将数据依赖的全局聚合操作从矩阵乘法单元(MXU)中卸载,避免通用芯片常见的零操作瓶颈。 其二是原生 FP4 支持,通过 4 位浮点数将 MXU 吞吐量翻倍,同时降低数据搬运的能耗,使更大的模型层可驻留于本地硬件缓冲区。 其三是更均衡的向量处理单元(VPU)扩展设计,使量化、softmax 等向量操作与矩阵乘法实现更好的流水线重叠,提升芯片整体利用率。 网络层面,谷歌为 TPU 8t 引入了全新的 Virgo 网络架构,采用高基数交换机与扁平化两层非阻塞拓扑,将数据中心网络(DCN)带宽较上一代提升最高 4 倍,芯片间互联(ICI)带宽提升 2 倍。单一 Virgo 网络可连接逾 13.4 万块 TPU 8t 芯片,提供高达 47 拍比特/秒的非阻塞双向带宽,整体算力超过 160 万 ExaFlops。 存储方面,TPU 8t 引入 TPUDirect RDMA 与 TPUDirect Storage 技术,绕过主机 CPU 直接在 TPU 高带宽内存(HBM)与网卡、高速存储之间传输数据,存储访问速度较第七代 Ironwood TPU 提升 10 倍,可确保 MXU 在处理大规模多模态数据集时保持满载。 ## TPU 8i:面向高并发推理的低延迟专家 TPU 8i 针对后训练阶段与高并发推理场景设计,其架构重心在于降低延迟、提升每芯片的并发处理能力。 片上存储是 TPU 8i 最显著的硬件特征。每块芯片集成 384MB 静态随机存取存储器(SRAM),是上一代 Ironwood 的三倍,可将更大的 KV Cache 完整保留在芯片上,大幅减少长上下文解码过程中核心的空闲等待时间,对需要多步骤推理的 AI 任务尤为关键。 TPU 8i 还引入了集合加速引擎(CAE),专门加速自回归解码与"思维链"处理中的归约与同步步骤。每块 TPU 8i 芯片包含两个张量核心(TC)与一个 CAE 芯粒,取代了上一代 Ironwood 中的四个 SparseCore,片上集合操作延迟降低 5 倍,直接提升了同时运行数百万智能体所需的吞吐量。 网络拓扑方面,TPU 8i 放弃了 TPU 8t 沿用的 3D 环面(torus)结构,转而采用全新的 Boardfly 互联拓扑。3D 环面在 1024 芯片配置下,任意两芯片间最多需要 16 跳;Boardfly 通过高基数设计将最大跳数压缩至 7 跳,网络直径缩减 56%,全对全通信延迟改善最高 50%,对混合专家模型(MoE)和推理模型中频繁的跨芯片令牌路由尤为有利。Boardfly 采用分层结构,从四芯片构建块逐级扩展至最多 1152 块芯片的完整 Pod,并通过光学电路交换机(OCS)实现组间互联。 ## 软件生态与市场意义 谷歌强调,硬件性能的释放有赖于配套软件栈的协同。 第八代 TPU 延续第七代 Ironwood 建立的软件体系,支持 JAX、PyTorch、Keras 及 vLLM 等主流框架,并提供 Pallas 自定义内核语言以充分挖掘 SparseCore 与 CAE 的硬件潜力。 谷歌同时宣布,原生 PyTorch 对 TPU 的支持现已进入预览阶段,用户可直接将现有 PyTorch 模型迁移至 TPU 运行,无需修改代码。 从市场角度看,谷歌此次双芯片策略直接回应了 AI 基础设施成本压力。训 练与推理对硬件的需求差异显著,统一芯片意味着在某一场景下必然存在资源浪费。通过专项优化,谷歌得以在价格性能比上实现更大幅度的提升,为云客户提供更具竞争力的单位算力成本。 两款芯片均已纳入谷歌云 AI Hypercomputer 超算架构,与硬件、软件及网络深度集成,覆盖 AI 全生命周期工作负载。 ### 相关股票 - [GOOGL.US](https://longbridge.com/zh-CN/quote/GOOGL.US.md) - [SOXL.US](https://longbridge.com/zh-CN/quote/SOXL.US.md) - [SMH.US](https://longbridge.com/zh-CN/quote/SMH.US.md) - [GOOW.US](https://longbridge.com/zh-CN/quote/GOOW.US.md) - [GGLL.US](https://longbridge.com/zh-CN/quote/GGLL.US.md) - [SOXX.US](https://longbridge.com/zh-CN/quote/SOXX.US.md) - [CLOU.US](https://longbridge.com/zh-CN/quote/CLOU.US.md) - [GOOG.US](https://longbridge.com/zh-CN/quote/GOOG.US.md) ## 相关资讯与研究 - [谷歌一口气推出两款 TPU,首度拆分训练与推理芯片,企业 AI 智能体全面铺开](https://longbridge.com/zh-CN/news/283671465.md) - [谷歌云推出新一代 AI 芯片](https://longbridge.com/zh-CN/news/283694793.md) - [谷歌拟推专用推理芯片:十年磨一剑,TPU 正全方位挑战英伟达霸主地位](https://longbridge.com/zh-CN/news/283384749.md) - [谷歌云年度 Next 大会:TPU 打破 “内存墙” OCS、液冷题材如期亮相](https://longbridge.com/zh-CN/news/283736799.md) - [谷歌豪掷 7.5 亿美元掀起 AI 智能体巨浪! 携手顶级咨询巨头们打响企业 AI 普及战](https://longbridge.com/zh-CN/news/283678061.md)