--- title: "AI 芯片 “分工” 時刻!谷歌第八代 TPU,為什麼是兩款?" type: "News" locale: "zh-HK" url: "https://longbridge.com/zh-HK/news/283677689.md" description: "谷歌用兩款芯片回答一個問題——效率。TPU 8t 強化超大規模訓練與吞吐效率,借 SparseCore 與 FP4 及新網絡架構大幅提升算力擴展能力;TPU 8i 則聚焦低延遲推理,通過超大 SRAM 與 CAE 提升併發與解碼效率。兩者共享軟件棧並深度整合雲 AI 基礎設施,直指 AI 工作負載分化與算力成本優化趨勢。" datetime: "2026-04-22T13:39:27.000Z" locales: - [zh-CN](https://longbridge.com/zh-CN/news/283677689.md) - [en](https://longbridge.com/en/news/283677689.md) - [zh-HK](https://longbridge.com/zh-HK/news/283677689.md) --- # AI 芯片 “分工” 時刻!谷歌第八代 TPU,為什麼是兩款? 谷歌將 AI 芯片戰略推向新階段。 在週三拉斯維加斯舉行的 Google Cloud Next 2026 大會上,谷歌雲發佈第八代張量處理器(TPU)的兩款新品——專為訓練設計的 TPU 8t 與專為推理優化的 TPU 8i,這是谷歌首次將訓練與推理任務拆分至獨立芯片,標誌着其 AI 硬件路線的重大轉向。 兩款芯片均計劃於 2026 年晚些時候正式對外供應。與去年 11 月發佈的第七代 Ironwood TPU 相比,TPU 8t 在同等價格下性能提升 2.8 倍,TPU 8i 性能提升 80%;兩款芯片每瓦性能均較上一代提升逾一倍,TPU 8t 達 124%,TPU 8i 達 117%。 谷歌高級副總裁兼 AI 與基礎設施首席技術官 Amin Vahdat 表示,隨着 AI 智能體的興起,"業界將受益於針對訓練和推理各自需求專門優化的芯片"。Alphabet 首席執行官桑達爾·皮查伊亦在博客中指出,這一架構旨在"以具有成本效益的方式,提供同時運行數百萬個智能體所需的大規模吞吐量和低延遲"。 ## 為何拆分為兩款芯片 此次將第八代 TPU 一分為二,是谷歌對 AI 工作負載日益分化趨勢的直接回應。預訓練、後訓練與實時推理在計算特性上已顯著分化:訓練任務追求極致吞吐量與規模擴展,推理任務則對延遲和併發更為敏感。單一芯片難以同時兼顧兩類場景的效率最優。 谷歌在技術博客中指出,第八代 TPU 的設計哲學圍繞可擴展性、可靠性與效率三大支柱,兩款芯片共享谷歌 AI 軟件棧的核心基因,但各自針對不同瓶頸進行了專項優化。 兩款芯片均集成了基於 Arm 架構的 Axion CPU,以消除數據預處理延遲造成的主機側瓶頸,確保 TPU 計算單元持續滿載運行。 ## TPU 8t:面向超大規模訓練的算力引擎 TPU 8t 定位為預訓練與嵌入密集型工作負載的專用加速器,谷歌稱其能夠"將前沿模型開發週期從數月壓縮至數週"。 在規模上,TPU 8t 最多可將 9600 塊芯片組合為單一超級計算節點(superpod),並通過 JAX 與 Pathways 框架將分佈式訓練擴展至單一集羣超過 100 萬塊 TPU 芯片。 芯片層面,TPU 8t 引入了三項關鍵技術創新。 其一是 SparseCore 加速器,專門處理嵌入查找中不規則的內存訪問模式,將數據依賴的全局聚合操作從矩陣乘法單元(MXU)中卸載,避免通用芯片常見的零操作瓶頸。 其二是原生 FP4 支持,通過 4 位浮點數將 MXU 吞吐量翻倍,同時降低數據搬運的能耗,使更大的模型層可駐留於本地硬件緩衝區。 其三是更均衡的向量處理單元(VPU)擴展設計,使量化、softmax 等向量操作與矩陣乘法實現更好的流水線重疊,提升芯片整體利用率。 網絡層面,谷歌為 TPU 8t 引入了全新的 Virgo 網絡架構,採用高基數交換機與扁平化兩層非阻塞拓撲,將數據中心網絡(DCN)帶寬較上一代提升最高 4 倍,芯片間互聯(ICI)帶寬提升 2 倍。單一 Virgo 網絡可連接逾 13.4 萬塊 TPU 8t 芯片,提供高達 47 拍比特/秒的非阻塞雙向帶寬,整體算力超過 160 萬 ExaFlops。 存儲方面,TPU 8t 引入 TPUDirect RDMA 與 TPUDirect Storage 技術,繞過主機 CPU 直接在 TPU 高帶寬內存(HBM)與網卡、高速存儲之間傳輸數據,存儲訪問速度較第七代 Ironwood TPU 提升 10 倍,可確保 MXU 在處理大規模多模態數據集時保持滿載。 ## TPU 8i:面向高併發推理的低延遲專家 TPU 8i 針對後訓練階段與高併發推理場景設計,其架構重心在於降低延遲、提升每芯片的併發處理能力。 片上存儲是 TPU 8i 最顯著的硬件特徵。每塊芯片集成 384MB 靜態隨機存取存儲器(SRAM),是上一代 Ironwood 的三倍,可將更大的 KV Cache 完整保留在芯片上,大幅減少長上下文解碼過程中核心的空閒等待時間,對需要多步驟推理的 AI 任務尤為關鍵。 TPU 8i 還引入了集合加速引擎(CAE),專門加速自迴歸解碼與"思維鏈"處理中的歸約與同步步驟。每塊 TPU 8i 芯片包含兩個張量核心(TC)與一個 CAE 芯粒,取代了上一代 Ironwood 中的四個 SparseCore,片上集合操作延遲降低 5 倍,直接提升了同時運行數百萬智能體所需的吞吐量。 網絡拓撲方面,TPU 8i 放棄了 TPU 8t 沿用的 3D 環面(torus)結構,轉而採用全新的 Boardfly 互聯拓撲。3D 環面在 1024 芯片配置下,任意兩芯片間最多需要 16 跳;Boardfly 通過高基數設計將最大跳數壓縮至 7 跳,網絡直徑縮減 56%,全對全通信延遲改善最高 50%,對混合專家模型(MoE)和推理模型中頻繁的跨芯片令牌路由尤為有利。Boardfly 採用分層結構,從四芯片構建塊逐級擴展至最多 1152 塊芯片的完整 Pod,並通過光學電路交換機(OCS)實現組間互聯。 ## 軟件生態與市場意義 谷歌強調,硬件性能的釋放有賴於配套軟件棧的協同。 第八代 TPU 延續第七代 Ironwood 建立的軟件體系,支持 JAX、PyTorch、Keras 及 vLLM 等主流框架,並提供 Pallas 自定義內核語言以充分挖掘 SparseCore 與 CAE 的硬件潛力。 谷歌同時宣佈,原生 PyTorch 對 TPU 的支持現已進入預覽階段,用户可直接將現有 PyTorch 模型遷移至 TPU 運行,無需修改代碼。 從市場角度看,谷歌此次雙芯片策略直接回應了 AI 基礎設施成本壓力。訓 練與推理對硬件的需求差異顯著,統一芯片意味着在某一場景下必然存在資源浪費。通過專項優化,谷歌得以在價格性能比上實現更大幅度的提升,為雲客户提供更具競爭力的單位算力成本。 兩款芯片均已納入谷歌雲 AI Hypercomputer 超算架構,與硬件、軟件及網絡深度集成,覆蓋 AI 全生命週期工作負載。 ### 相關股票 - [GOOGL.US](https://longbridge.com/zh-HK/quote/GOOGL.US.md) - [SOXL.US](https://longbridge.com/zh-HK/quote/SOXL.US.md) - [SMH.US](https://longbridge.com/zh-HK/quote/SMH.US.md) - [GOOW.US](https://longbridge.com/zh-HK/quote/GOOW.US.md) - [GGLL.US](https://longbridge.com/zh-HK/quote/GGLL.US.md) - [SOXX.US](https://longbridge.com/zh-HK/quote/SOXX.US.md) - [CLOU.US](https://longbridge.com/zh-HK/quote/CLOU.US.md) - [GOOG.US](https://longbridge.com/zh-HK/quote/GOOG.US.md) ## 相關資訊與研究 - [AI 晶片「分工」時刻來臨!谷歌第八代 TPU 為什麼要拆分成兩款獨立晶片?](https://longbridge.com/zh-HK/news/283711681.md) - [決戰 AI 推理時代!谷歌本週將發布新一代 TPU 輝達 AI 晶片霸主地位不保?](https://longbridge.com/zh-HK/news/283380828.md) - [美媒:谷歌正與 Marvell 洽談開發 2 款新型 AI 晶片 最快 2027 年完成設計與試生產](https://longbridge.com/zh-HK/news/283262482.md) - [Google Cloud Next 26 大會登場 第八代 TPU 首創推理、訓練雙規格](https://longbridge.com/zh-HK/news/283666114.md) - [谷歌發布一系列新 AI 工具 助企業實現任務自動化](https://longbridge.com/zh-HK/news/283675619.md)