斯蒂芬·内利斯著 路透 4 月 4 日电-Alphabet Inc.(GOOGL.O) 旗下的谷歌 (Google) 周二公布了用于训练其人工智能模型的超级计算机的新细节,称这些系统比 Nvidia Corp(NVDA.O) 的同类系统更快、更节能。 谷歌已经设计了自己的定制芯片,名为张量处理单元,简称 TPU。该公司 90% 以上的人工智能培训工作都使用这些芯片,人工智能培训是通过模型输入数据的过程,使其在使用类似人类的文本回答查询或生成图像等任务中有用。 谷歌 TPU 现已进入第四代。周二,谷歌发表了一篇科学论文,详细描述了它如何使用自己定制的光开关将 4000 多个芯片串在一起,形成一台超级计算机,以帮助连接各个机器。 改善这些连接已成为制造人工智能超级计算机的公司之间的一个关键竞争点,因为为谷歌的 Bard 或 OpenAI 的 ChatGPT 等技术提供动力的所谓大语言模型已经爆炸式增长,这意味着它们太大了,无法存储在单一芯片上。 取而代之的是,这些模型必须分散在数千个芯片上,然后这些芯片必须一起工作数周或更长时间来训练模型。谷歌的 Palm 模型是迄今为止最大的公开披露的语言模型,它是通过在 50 天内将其分散在两台 4000 芯片超级计算机上进行训练的。 谷歌表示,其超级计算机可以轻松地在运行中重新配置芯片之间的连接,帮助避免问题并进行调整,以提高性能。 谷歌同事 Norm Jouppi 和谷歌杰出工程师 David Patterson 在一篇关于该系统的博客文章中写道:“电路交换使绕过故障部件变得容易。” 这种灵活性甚至允许我们改变超级计算机互联的拓扑结构,以加速 ML(机器学习) 模型的性能。 虽然谷歌现在才公布有关其超级计算机的细节,但自 2020 年以来,它一直在公司内部的俄克拉何马州梅耶斯县的一个数据中心上线。谷歌表示,初创公司 MidTrip 使用该系统来训练其模型,该模型在输入几个字的文本后会生成新鲜的图像。 在这篇论文中,谷歌表示,对于同等大小的系统,其超级计算机的速度是基于 NVIDIA A100 芯片的系统的 1.7 倍,能效是基于 NVIDIA A100 芯片的系统的 1.9 倍,后者与第四代 TPU 同时上市。 谷歌表示,它没有将其第四代芯片与 NVIDIA 目前的旗舰芯片 H100 进行比较,因为 H100 是在谷歌芯片之后上市的,采用了较新的技术。 谷歌暗示,它可能正在开发一款新的 TPU,将与 NVIDIA H100 竞争,但没有提供细节,Jouppi 告诉路透社,谷歌拥有 “一条健康的未来芯片管道”。