英偉達在生成式 AI 領域越來越具有統治力,但對手仍前赴後繼,持續挑戰英偉達正在快速形成的 AI 芯片帝國。 最近,谷歌在 2023 谷歌大會上發佈最新一代生成式 AI 芯片 “谷歌 Cloud TPU v5e”。這是一款專為重大模型而生的 AI 加速器。 與前代產品 Cloud TPU v4 相比,就成本而言降低了 50%,就是在每塊美元的花費中,TPU v5e 提供高達 2 倍的訓練性能和 2.5 倍的推理性能。 但英偉達的 AGI 芯片霸權很難瞬間被動搖,因此谷歌的目標與英偉達不同:谷歌正在試圖創建一整套 AGI 生態開發體系,這是遠比英偉達的 AI 芯片霸權更具野心的市場定位。 谷歌能成功嗎? TPU v5e:專為生成式 AI 而生 谷歌在 8 月 30 日舉辦的 Google Cloud Next 2023 大會上,宣佈了整套產品更新信息。其中,谷歌推出的 AI 加速器 Cloud TPU v5e 被認為是業界向英偉達 AI 芯片霸權發起的最新一輪衝鋒。比谷歌稍早的是 8 月 28 日 IBM 推出的模擬人腦的 AI 芯片。 TPU,英文全稱 “Tensor Processing Unit”,簡稱張量處理器,是谷歌為機器學習(ML)定製的專用芯片(ASIC),專為谷歌的深度學習框架 TensorFlow 設計。 所謂 ASIC,即專用芯片(Application-Specific Integrated Circuit),是指依產品需求不同而定製的特殊規格芯片;與此對應,非定製芯片則是應用特定標準產品的芯片。 與圖形處理器(GPU)相比,TPU 採用低精度(8 位)計算,以降低每步操作使用的晶體管數量。 降低精度對深度學習的準確度影響很小,但卻可以大幅降低功耗、加快運算速度。同時,TPU 使用了脈動陣列的設計,用來優化矩陣乘法與卷積運算,減少 I/O 操作。此外,TPU 還採用了更大的片上內存,以此減少對 DRAM 的訪問,從而更大程度地提升性能。 2016 年,谷歌在其 I/O 年會上,首次公佈 TPU。同年推出首代 TPU,2021 年發佈第四代 TPU,2022 年提供給開發者。 雲 TPU(Cloud TPU)是一項谷歌雲服務,適合訓練需要做的海量矩陣計算的大型複雜深度學習模型,例如大語言模型、蛋白質摺疊建模和藥物研發等,幫助企業在實現 AI 工作負載時,節省資金和時間。 時至今日,像谷歌這樣的技術公司,推出 AI 芯片,必然不會忽視 LLM 推理與訓練的應用需求。Cloud TPU v5e 正是如此。 但是,這款 AI 加速器儘管也是為專用於訓練與推理所需的成本效益和性能而設計,但其訓練規模卻非超大型,而是中大型。 Cloud TPU v5e 的技術路線,看上去有點像中國小米公司最初的品牌定位:強調性價比。這款最新 AI 加速器與其前代產品 Cloud TPU v4 相比,開發側重是效率優先,成本下降 50%,但訓練性能提升 2 倍,推理能力提升 2.5 倍。 因此,Cloud TPU v5e 被谷歌稱為 “超級計算機”,平衡了性能、靈活性和效率,允許多達 256 個芯片互連,聚合帶寬超過 400 Tb/s 和 100 petaOps 的 INT8 性能;此外還支持八種不同的虛擬機(VM)配置,單片內的芯片數量從一個到 250 多個不等。 其中,性能方面,有一組數據可供參考:據速度基準測試,通過 Cloud TPU v5e,訓練和運行人工智能模型的速度提高了 5 倍;1 秒內,能實時處理 1000 秒的內部語音到文本和情感預測模型,比之前提升 6 倍。 谷歌表示,“我們正處於計算領域千載難逢的拐點。設計和構建計算基礎設施的傳統方法不再足以滿足生成式人工智能和 LLM 等工作負載呈指數級增長的需求。過去五年,LLM 的參數數量每年增加 10 倍。因此,客户需要具有成本效益且可擴展的人工智能優化基礎設施”。 通過提供 AI 新基礎設施技術、TPU 和 GPU,谷歌 Cloud 正在努力滿足開發者的需求。這種努力,包括兩個方面,除了 Cloud TPU v5e(目前已提供預覽版),還包括將之與谷歌 Kubernetes Engine(GKE)、Vertex AI 以及 Pytorch、JAX 和 TensorFlow 等框架的集成,以此提升開發者的使用效率。 鑑於 Cloud TPU v5e 專為中大型模型設計,那麼對於超大型模型,谷歌也準備了新產品:基於英偉達 H100 GPU 的超級計算機 “谷歌 A3 VM”,將於 9 月全面上市。這是專為大規模 AI 模型提供支持的超級 AI 平台。 路線:構建開發生態平台 除了超強的性能和令人心動的成本效益,谷歌 Cloud TPU v5e 的易用性也異常凸顯。 開發者(也可能是商業或研究機構)能通過 Google Kubernetes Engine(GKE)來管理基於 Cloud TPU v5e 的中大規模 AI 工作負載編排,進而提升 AI 開發效率。這對於喜歡簡單託管服務的商業或研究機構而言,Vertex AI 現在支持使用 Cloud TPU 虛擬機用以訓練不同的框架和庫。 GKE 是谷歌 Cloud 平台上的一項託管式容器編排服務,而 Kubernetes 則是一種開源的容器編排平台,這是能幫助機構的技術人員管理和調度容器化的應用程序。GKE 簡化了技術使用方在谷歌雲上部署、管理和擴展容器化應用程序的過程。 通過 GKE 提供的一整套功能強悍的工具和服務,開發者能輕而易舉地創建和管理 Kubernetes 集羣。通過 GKE,技術開發者或機構技術方能快速啓動和停止 Kubernetes 集羣,自動做節點管理和擴展,以及監控和調試應用程序。GKE 還提供了高度可靠的基礎設施和自動化的操作,使技術方能專注於應用程序的開發和部署,而無需擔心底層的基礎設施細節。 Cloud TPU v5e 易用性的基礎,實際上折射出谷歌在生成式 AI 領域採取了與英偉達不同的路線。 這條路線的最終指向,是要建立成體系的生成式 AI 開發者生態。 Cloud TPU v5e 為谷歌 AI 框架(如 JAX、PyTorch 和 TensorFlow)提供內置支持,同時也可將之與谷歌 AI 開發者平台 Vertex AI 集成。 Vertex AI 是谷歌 Cloud 在 2021 年 5 月發佈的機器學習(ML)平台,主要用以訓練和部署 ML 模型和 AI 應用,也可用於自定義 LLM。 Vertex AI 結合了數據工程、數據科學和 ML 等工作流,技術開發團隊因之可使用通用工具集用於協作;通過谷歌 Cloud 的優勢擴縮應用,並提供 AutoML、自定義訓練、模型發現和生成式 AI 等選項,以端到端 MLOps 工具實現自動化部署和擴展。 這個 AI 開發平台能支持多種界面,包括 SDK、控制枱、命令行和 Terraform。VertexAI 擴展是一組完全託管的擴展開發人員工具,能實現從模型到 API 的實時數據流動和實際操作。 據谷歌透露,對於希望快速開始常見生成式人工智能(AI)用途(如聊天機器人和定製搜索引擎)的開發人員,Vertex AI 搜索和對話能幫助沒有任何 AI 經驗的開發者快速上手。在許多情況下,有了 Vertex AI 平台,開發者也無需編寫任何代碼。 實際上,Vertex AI 開發者平台是谷歌競逐生成式 AI 的利器。谷歌也有意將 Vertex AI 構建成一個龐大的 AI 開發生態圈。在這個生態體系中,谷歌將軟件硬件全部推向性能越來越強的頂端。在此基礎上,還集成了開發 AI 的一站式服務。 這是一條與 AGI 芯片霸主英偉達不一樣的道路,英偉達走為 AGI 提供工具的路線,而生態體系式的平台,才能與行業捆綁並行,進而有可能與英偉達帝國分庭抗禮。