
詳談谷歌 TPU 芯片:如何與博通博弈?能否和英偉達競爭?

TPU 對英偉達卡的競爭則相對還遠不到威脅的程度,不管是硬件壁壘、軟件生態適配、到商業邏輯上都註定了,直接購買 TPU 進行自身部署的行為,只有極少數高端玩家才能淺淺嘗試下,譬如最近小作文傳出的 Meta。
前幾天簡單聊了谷歌 TPU 現在面臨的困境,既離不開博通、又想擺脱對博通的高度依賴。這次就詳細聊聊谷歌如何與博通博弈。另外,在市場競爭環境中,TPU 最終能否大量外售以搶佔英偉達的市場份額?
一、谷歌 TPU 的開發模式
TPU 目前 v7、v7e、v8 版本的開發歸屬如下:

谷歌 TPU 最早選擇博通,是因為在芯片設計代工環節,博通確實是全球最好的服務商,特別是擁有最頂尖的芯片高速互聯技術,這也是現在實現大規模 AI 芯片並行計算的核心。但另一方面,博通接單 TPU 的毛利率高達 70%,而聯發科作為消費級別芯片商,綜合技術實力雖然不如博通,但願意以 30%+ 的毛利率接單 TPU,極大降低谷歌的運營成本,自然成為了谷歌用以制衡博通的一枚棋子。
同樣在 Mag7 裏不少科技巨頭也在採用類似的模式開發自研 AI 芯片,Meta 也選擇了博通合作、微軟和亞馬遜則選擇了 Marvell 和 Alchip,就剩下 Tesla 和 Apple 則選擇自主開發。
二、谷歌和博通的工作界面問題
為什麼谷歌要做芯片的頂層架構設計,而不是完全外包給博通?為什麼博通不把谷歌的芯片設計作為公版賣給其他廠商?我們來研究下這個工作界面問題。
進入正題前講個小故事,我記得快 10 年前國內熱炒過雲服務的股權投資,那時我們盡調覆蓋到服務器製造時聽過一個傳聞:阿里最早切入雲服務賽道時找到富士康,私下要求提供其給谷歌代工的服務器主板,富士康拒絕了而提出使用自己的公版。拋開商業 IP 和商譽問題不談,谷歌當時設計的主板,直接在每塊主板上掛了一個 12V 的鉛酸電池,電網的電只轉換一次就進入主板,不像傳統集中式 UPS 設計需要三次轉換,大幅降低能耗。在當時的雲服務領域,大幅節能意味着廠商要麼毛利潤大幅增加、要麼前端市場價格可以大幅降低,簡直就是商業開掛大殺器。
同樣我們看 TPU 的開發工作界面問題,谷歌之所以做 TPU,是因為最大使用方是谷歌自己的內部應用負載,譬如搜索引擎、YouTube、廣告推薦、Gemini 大模型等,所以只有谷歌自己內部團隊才知道,TPU 的算子(Operator)設計成什麼樣子,能發揮出內部應用的最大功效,而這些內部商業信息是不可能交給博通知曉而完成芯片的頂層架構設計的。這就是為什麼谷歌一定要自己做 TPU 的頂層架構設計。
但這引來第二個問題,頂層架構設計交給博通,博通不就知道了嗎?是不是能改進自己的公版賣給其他廠商?
同樣拋開商業 IP 和商譽問題不談,芯片頂層架構設計的交付,並不像 10 多年前電路板設計的交付了。谷歌自己工程師會使用 SystemVerilog 編寫設計源代碼(RTL),而編譯後給到博通的是門級網表(Gate-level Netlist),確保了即使博通知道芯片設計裏這 1 億個晶體管如何連線,但幾乎不可能逆向工程地反推出背後的高層設計邏輯。對於最核心的邏輯模塊設計,譬如谷歌特有的矩陣乘法單元 MXU,谷歌甚至不會給博通看具體的網表,而是做成物理版圖(Hard IP),丟給博通一個黑盒子,博通只需要按照要求給黑盒子搞定供電、散熱、數據聯通,而不需要知道黑盒子在算什麼。
所以,我們現在看到的谷歌和博通的工作界面,其實已經是最理想的商業合作情況了。谷歌做 TPU 的頂層架構設計,各種信息加密後扔給博通,博通把剩下的實施的活全部接了,同時給谷歌配自己最頂尖的高速互聯技術,最後給到台積電代工製造。現在谷歌説,TPU 出貨量越來越大了,我要控成本,所以博通你把一部分手裏的活分給聯發科,我給他付費要比你低。博通説好的,我反正也有 Meta 和 OpenAI 的大活要接,有些收尾的工作就交給聯發科吧。聯發科説,谷歌大哥,我便宜點,你看以後多找我,除了高速互聯那玩意兒我不懂,其他工作儘量都交給我吧。
三、TPU 能否真正搶佔英偉達的市場份額?
簡單地説結論:TPU 會有看得見的大幅度出貨增長,但對英偉達的出貨影響很小。兩者的增長邏輯並不相同,給客户的服務也不相同。
如在前文裏提到的,英偉達的卡出貨增長得益於三大塊需求:
(1)高端訓練市場的增長。之前有很多聲音説 AI 模型已經吃掉絕大多數世界的信息了,以後沒有訓練需求了,這其實是説的預訓練(Pre-training)。但大家很快發現,純粹大數據預訓練出來的模型很容易出現幻覺式的胡説八道,所以後訓練(Post-training)被馬上重視起來,而後訓練涵蓋了大量專家判斷,這裏的數據量甚至是動態的,只要世界在變化,專家判斷也需要不斷修正,所以越複雜的大模型越需要更大規模的後訓練。
(2)複雜推理需求。後訓練出來的思考型大模型,例如 OpenAI 的 o1、xAI 的 Grok 4.1 Thinking、谷歌的 Gemini 3 Pro 等,現在接受每一次複雜任務,都需要進行多次推理和自我驗證,工作量已經相當於一次小型輕量化訓練了,使得大部分高端複雜推理還是需要跑在英偉達的卡上。
(3)物理 AI 需求。即使全世界的固定知識信息訓練做完,動態的物理世界呢?自動駕駛、各行各業的機器人、自動化生產、科學研究,這些不斷產生新知識、互動信息的物理世界爆發出的訓練和複雜推理需求,甚至遠超當下全世界知識的總和。
TPU 的快速增長,更多是得益於:
(1)谷歌自身使用量的增長。特別是 AI 已經嵌入幾乎所有谷歌的頂級應用,從搜索引擎 Search、視頻 YouTube、廣告推薦、雲服務、Gemini 應用等,這些海量的增長使得谷歌自己對 TPU 的需求爆發式地增長。
(2)谷歌雲服務裏對外提供 TPU 雲。儘管目前 Google Cloud 給外部客户使用還是以英偉達的卡為主,但同時也在大力推廣基於 TPU 的雲服務,類似於像 Meta 這樣的大客户,自身對 AI 基礎設施的需求旺盛,但採購英偉達卡部署數據中心需要時間,同時也作為商業談判籌碼,Meta 完全可以考慮採用租賃 TPU 雲服務來做預訓練、以減緩英偉達卡供不應求且價格昂貴的問題,而 Meta 的自研芯片則用於內部推理任務。這種混合式的芯片解決方案可能對 Meta 是最有利的選擇。
最後,再聊下軟硬件層面,TPU 為何無法做到對英偉達卡的替代或直面競爭。
(1)硬件障礙:基建不兼容
NVIDIA 的 GPU 是標準件,買回來插在戴爾/惠普的服務器裏就能用,任何數據中心都能裝。TPU 是 “系統”,依賴 Google 獨有的 48V 供電、液冷管道、機櫃尺寸和封閉的 ICI 光互聯網絡。除非客户願意像 Google 一樣推倒重建數據中心,否則幾乎不可能買 TPU 回去自己部署(On-Prem)。這意味着 TPU 只能在 Google Cloud 上租用,限制了其高端市場的觸達。
(2)軟件障礙:生態不兼容(PyTorch/CUDA vs. XLA)
全球 90% 的 AI 開發者都在用 PyTorch + CUDA(動態圖模式),而 TPU 強制要求靜態圖模式(XLA)。這裏對開發者而言,遷移成本極高。除了 Apple、Anthropic 這種有能力重寫底層代碼的巨頭,普通企業和開發者根本玩不起 TPU。這注定 TPU 只能服務於 “極少數有全棧開發能力的客户”,無法像 NVIDIA 那樣將 AI 訓練和推理普及到每一所大學和初創公司,即使是通過雲服務也是一樣。
(3)最後還有一個商業問題:內部 “左右互搏”(Gemini vs. Cloud)
作為雲服務巨頭,Google Cloud 肯定是想賣 TPU 賺錢的,但 Google Gemini 團隊更想獨佔 TPU 算力來保持領先,用輸出的應用端來給公司賺錢,這裏面的利益肯定有衝突,為了年底的獎金,誰來賺這個錢呢?假設 Google 開始把最先進的 TPU 大規模賣給 Meta 或 Amazon,甚至幫助他們部署使用,結果 Google 最賺錢的廣告業務開始被這兩家最大的競爭對手挖了牆角,這筆賬怎麼算呢?這種內部戰略衝突,一定會導致 Google 在外售 TPU 時會猶豫不決,甚至保留最強的版本不賣。這也註定了無法與英偉達競爭搶佔高端市場。
四、總結:
谷歌和博通在 TPU 上的博弈會繼續以混合開發模式延續,但確實會給強大的 v8 帶來開發難度的增加,具體開發進展我們拭目以待,也期待下週 12 月 11 日博通發佈 Q3 財報時會不會給我們帶來一些更多的信息。
TPU 對英偉達卡的競爭則相對還遠不到威脅的程度,不管是硬件壁壘、軟件生態適配、到商業邏輯上都註定了,直接購買 TPU 進行自身部署的行為,只有極少數高端玩家才能淺淺嘗試下,譬如最近小作文傳出的 Meta。
但從我對 Meta 的理解而言,他們很難做到耗費大量資本開支再去重建一套基於 TPU 的數據中心,且可能發展出 AI 用來蠶食谷歌的廣告業務。何況,傳出這個小作文的媒體是 The Infomation,一家長期敵視英偉達、微軟等幾家科技巨頭的小道消息網絡媒體,其報道的大部份小作文最後都被證偽過。最可能的還是 Meta 通過 TPU 雲租賃的方式用於模型預訓練或複雜推理,減緩對英偉達的依賴,一如 TPU 自己的混合開發策略。科技巨頭分分合合,但最終還是打鐵終須自身硬,唯最佳利益方案才是正解。
文章來源:新視界 AlanShore

