斯蒂芬·內利斯著 路透 4 月 4 日電-Alphabet Inc.(GOOGL.O) 旗下的谷歌 (Google) 週二公佈了用於訓練其人工智能模型的超級計算機的新細節,稱這些系統比 Nvidia Corp(NVDA.O) 的同類系統更快、更節能。 谷歌已經設計了自己的定製芯片,名為張量處理單元,簡稱 TPU。該公司 90% 以上的人工智能培訓工作都使用這些芯片,人工智能培訓是通過模型輸入數據的過程,使其在使用類似人類的文本回答查詢或生成圖像等任務中有用。 谷歌 TPU 現已進入第四代。週二,谷歌發表了一篇科學論文,詳細描述了它如何使用自己定製的光開關將 4000 多個芯片串在一起,形成一台超級計算機,以幫助連接各個機器。 改善這些連接已成為製造人工智能超級計算機的公司之間的一個關鍵競爭點,因為為谷歌的 Bard 或 OpenAI 的 ChatGPT 等技術提供動力的所謂大語言模型已經爆炸式增長,這意味着它們太大了,無法存儲在單一芯片上。 取而代之的是,這些模型必須分散在數千個芯片上,然後這些芯片必須一起工作數週或更長時間來訓練模型。谷歌的 Palm 模型是迄今為止最大的公開披露的語言模型,它是通過在 50 天內將其分散在兩台 4000 芯片超級計算機上進行訓練的。 谷歌表示,其超級計算機可以輕鬆地在運行中重新配置芯片之間的連接,幫助避免問題並進行調整,以提高性能。 谷歌同事 Norm Jouppi 和谷歌傑出工程師 David Patterson 在一篇關於該系統的博客文章中寫道:“電路交換使繞過故障部件變得容易。” 這種靈活性甚至允許我們改變超級計算機互聯的拓撲結構,以加速 ML(機器學習) 模型的性能。 雖然谷歌現在才公佈有關其超級計算機的細節,但自 2020 年以來,它一直在公司內部的俄克拉何馬州梅耶斯縣的一個數據中心上線。谷歌表示,初創公司 MidTrip 使用該系統來訓練其模型,該模型在輸入幾個字的文本後會生成新鮮的圖像。 在這篇論文中,谷歌表示,對於同等大小的系統,其超級計算機的速度是基於 NVIDIA A100 芯片的系統的 1.7 倍,能效是基於 NVIDIA A100 芯片的系統的 1.9 倍,後者與第四代 TPU 同時上市。 谷歌表示,它沒有將其第四代芯片與 NVIDIA 目前的旗艦芯片 H100 進行比較,因為 H100 是在谷歌芯片之後上市的,採用了較新的技術。 谷歌暗示,它可能正在開發一款新的 TPU,將與 NVIDIA H100 競爭,但沒有提供細節,Jouppi 告訴路透社,谷歌擁有 “一條健康的未來芯片管道”。