性能硬剛 Blackwell、能效吊打 GPU,一文深度拆解谷歌 TPU“真實戰力”

華爾街見聞
2025.11.25 07:02
portai
我是 PortAI,我可以總結文章信息。

對於投資者和雲廠商而言,TPU 最大的價值不僅僅是快,而是利潤率。谷歌通過掌控 TPU 的全棧設計,成功繞開了 “英偉達税”。與此同時,Broadcom 的毛利遠低於英偉達,這讓谷歌能夠將算力成本壓到極致。從 TPU v6 到最新曝光的 TPU v7 ,谷歌不僅是在造芯,更是在為即將到來的 “AI 推理時代” 構建一道幾乎不可逾越的護城河。

在 AI 算力領域,英偉達似乎是那個不可一世的霸主。但在聚光燈之外,科技巨頭谷歌正在用一種更為隱秘卻極具破壞力的方式,重新定義 AI 芯片的戰爭規則。

這張王牌,就是谷歌自研的 TPU(Tensor Processing Unit)。

如果你以為這只是谷歌為了省錢搞的 “備胎”,那就大錯特錯了。根據最新披露的深度資料,谷歌最新的 TPU v7(代號 Ironwood)不僅在顯存容量上追平了英偉達的 B200,更在能效比上實現了對 GPU 的降維打擊。甚至連黃仁勳本人也曾暗示,在 ASIC 領域,谷歌 TPU 是一個 “特殊的存在”。

從 TPU v6 (Trillium) 到最新曝光的 TPU v7 (Ironwood),谷歌不僅是在造芯,更是在為即將到來的 “AI 推理時代” 構建一道幾乎不可逾越的護城河。

緣起:一場 “被迫” 的生存自救

TPU 的故事並非始於芯片製造的突破,而是始於一道令谷歌高層驚出一身冷汗的數學題。

2013 年,Jeff Dean 與 Google Brain 團隊進行了一次推演:如果每一位 Android 用户每天只使用 3 分鐘的語音搜索,谷歌就需要將全球數據中心的容量翻倍才能應對算力負載。

當時的谷歌依賴通用的 CPU 和 GPU,但這些芯片對於深度學習中海量的矩陣乘法運算來説,效率太低了。如果沿用舊硬件擴張,財務和物流成本將是一場噩夢。

於是,谷歌決定走一條從未走過的路:為 TensorFlow 神經網絡量身定製一款 ASIC 芯片。

這個項目進展神速,從設計概念到數據中心部署僅用了 15 個月。2015 年,在外界還一無所知時,TPU 就已經在默默支撐谷歌地圖、照片和翻譯等核心業務了。

架構之爭:甩掉 “包袱”,讓數據像血液一樣流動

為什麼 TPU 的能效能吊打 GPU?這要從底層架構説起。

GPU 是為圖形處理設計的 “通用” 並行處理器,為了處理從遊戲紋理到科學模擬的各種任務,它揹負了沉重的 “架構包袱”——比如複雜的緩存、分支預測和線程管理,這些都消耗了大量的芯片面積和能耗。

而 TPU 則極其 “極簡主義”。它剝離了光柵化、紋理映射等所有無關硬件,採用了一種獨特的 “脈動陣列”(Systolic Array)架構。

在傳統 GPU 中,每次計算都需要在內存和計算單元之間搬運數據,形成了著名的 “馮·諾依曼瓶頸”。而在 TPU 的脈動陣列中,數據像血液流過心臟一樣流過芯片。這大幅減少了對 HBM(高帶寬內存)的讀寫次數,讓芯片把時間花在計算上,而不是等待數據上。

這種設計讓 TPU 在 “每焦耳運算量”(Operations Per Joule)上擁有碾壓級的優勢。

硬剛 Blackwell:TPU v7 的恐怖數據

雖然谷歌對性能數據一向諱莫如深,但根據 Semianalysis 和內部透露的數據,谷歌最新的 TPU v7 (Ironwood) 展現出了驚人的代際跨越。

算力暴漲: TPU v7 的 BF16 算力高達 4,614 TFLOPS,而上一代被廣泛使用的 TPU v5p 僅為 459 TFLOPS。這是整整一個數量級的提升。

顯存對標 B200: 單芯片 HBM 容量達到 192GB,這與英偉達的 Blackwell B200 完全一致(Blackwell Ultra 為 288GB)。

帶寬狂飆: 內存帶寬達到 7,370 GB/s,遠超 v5p 的 2,765 GB/s。

在互聯技術上,谷歌使用了光路交換機(OCS)和 3D 環面網絡。

與英偉達的 InfiniBand 相比,OCS 極其節省成本和功耗,因為它消除了光電轉換。雖然犧牲了一定的靈活性,但在處理特定 AI 任務時,配合谷歌的編譯器,其效率無人能敵。

更值得注意的是能效。谷歌在 Hot Chips 2025 上透露,v7 的每瓦性能比 v6e(Trillium)提升了 100%。有前谷歌高管直言:“針對特定應用,TPU 能提供比 GPU 高出 1.4 倍的每美元性能。” 對於動態模型訓練(如搜索類工作負載),TPU 的速度甚至是 GPU 的 5 倍。

逃離 “英偉達税”,重回高毛利時代

對於投資者和雲廠商而言,TPU 最大的價值不僅僅是快,而是利潤率。

在 AI 時代,雲巨頭們面臨着從 “寡頭壟斷” 向 “大宗商品化” 的滑坡。因為必須採購英偉達的 GPU,高達 75% 的毛利被英偉達拿走了,雲廠商的 AI 業務毛利從傳統的 50-70% 驟降至 20-35%,甚至更像是一個收過路費的 “公用事業公司”。

如何回到高毛利時代?自研 ASIC 是唯一的解藥。

谷歌通過掌控 TPU 的全棧設計(自己做前端 RTL 設計,Broadcom 只負責後端物理實現),成功繞開了 “英偉達税”。與此同時,Broadcom 的毛利遠低於英偉達,這讓谷歌能夠將算力成本壓到極致。

一位客户在使用對比後坦言:

如果我用 8 張 H100,對比使用一個 v5e Pod,後者的每美元性能不僅更高,而且隨着谷歌推出新一代 TPU,舊款不僅不會淘汰,反而會變得極其便宜。

有時候如果願意多等幾天訓練時間,成本甚至能降到原來的五分之一。

儘管 TPU 面臨着生態系統(CUDA 的主導地位)和多雲部署(數據遷移成本)的挑戰,但隨着 AI 工作負載從 “訓練” 向 “推理” 轉移,CUDA 的重要性在降低。

SemiAnalysis 的評價一針見血:

谷歌在超大規模計算廠商中的芯片霸權無人能及,TPU v7 在性能上足以與 Nvidia Blackwell 處於同一梯隊。

在 AI 算力這場萬億美金的博弈中,英偉達雖然領跑,但手握 TPU 利劍的谷歌,或許是唯一一個能完全掌握自己命運的玩家。