
谷歌加快 TPU 部署步伐,与英伟达在 AI 芯片领域竞争升级

谷歌首次与第三方云服务商达成协议,在其数据中心部署自研 AI 芯片 TPU,标志着谷歌正更直接地挑战英伟达在 AI 芯片市场的主导地位。分析认为,此举可能减少这些设施对英伟达 GPU 的依赖,也反映出谷歌长期希望做大 TPU 业务、降低对英伟达依赖的战略意图。
谷歌是英伟达人工智能芯片最大的买家之一,并将这些芯片租赁给 Google Cloud 的客户,如 OpenAI 和 Meta Platforms。然而,谷歌发展自家 AI 芯片的雄心并未减缓。
据七位参与相关谈判的人士对媒体透露,谷歌近期接洽了一些以租赁英伟达芯片为主的小型云服务商,提出希望他们的数据中心也能部署谷歌的 AI 芯片。
据参与该交易的公司代表私下对媒体透露,谷歌已经与至少一家云服务商达成协议,其中包括总部位于伦敦的 Fluidstack,后者将在纽约的数据中心部署谷歌的张量处理单元(TPU)。
此外,谷歌也曾尝试与其他专注英伟达芯片的云服务商达成类似协议,比如正为 OpenAI 打造一个部署大量英伟达芯片的数据中心的 Crusoe 公司,以及向微软和 OpenAI 租赁英伟达芯片的 CoreWeave。
媒体称,目前尚不清楚谷歌首次选择在其他云服务商的数据中心部署 TPU 的原因。分析认为,这可能是因为谷歌自建数据中心的速度赶不上对芯片的需求增长,也可能是希望通过其他云服务商为其 TPU 寻找更多新客户,比如 AI 应用开发者。这种做法与云服务商租赁英伟达显卡的模式类似。
分析称,如果是后一种情况,谷歌的做法就等于更直接地与英伟达竞争,毕竟英伟达主要是向这些云服务商销售芯片。无论出于什么目的,在其他云服务商的数据中心部署 TPU,都会意味着这些设施使用的英伟达 GPU 数量会减少。
投资公司 D.A. Davidson 的股票研究分析师 Gil Luria 团队对媒体表示,越来越多的云服务商和大型 AI 开发商对 TPU 感兴趣,希望借此摆脱对英伟达的依赖。他们在与多家前沿人工智能实验室的研究人员和工程师交流后发现,业内对谷歌这款为机器学习和 AI 定制的加速芯片评价正面。
因此,分析师团队认为,如果谷歌将 TPU 业务与旗下 AI 研究机构 DeepMind 合并并单独剥离上市,市场将有强劲需求。根据 Luria 团队的估算,这项业务的潜在估值约为 9000 亿美元,而在今年早些时候,他们的估值还是 7170 亿美元。
“没人愿意只有一个来源……在关键组件上完全受制于某一供应商。”
“如果这项业务真的被剥离,投资者将同时获得一家领先的 AI 加速芯片供应商和一家顶级 AI 实验室,这可能会成为 Alphabet 最具价值的资产之一。”
而英伟达首席执行官黄仁勋则对这种竞争芯片项目泼了冷水。他对媒体表示,AI 应用开发者更偏好 GPU,因为它们用途更广,支持的软件也更强大。
拉拢英伟达的 “朋友”
媒体报道,谷歌的谈判表明,它正在设法接近那些英伟达重点扶持的新兴云服务商。这些公司与 Google Cloud 和 Amazon Web Services 不同,它们几乎只租赁英伟达芯片,而且比传统云服务商更愿意采购多样化的英伟达产品。英伟达还向这些公司投资了资金,并优先供应最热门的芯片。
谷歌主要将 TPU 用于开发自家的 AI 模型,比如 Gemini 系列,而近年来内部对 TPU 的需求大增。
不过,谷歌也长期向其他公司租赁 TPU。例如,Apple 和 Midjourney 都通过 Google Cloud 租用 TPU。而在今年夏季初,谷歌甚至一度让 OpenAI 对租用 TPU 感兴趣,但 OpenAI 随后突然改变了主意。
谷歌内部曾讨论扩大 TPU 业务,以增加收入并减少云计算部门对昂贵的英伟达芯片的依赖。据两名前高管对媒体透露,高层也曾探讨过将 TPU 直接销售给 Google Cloud 以外的客户。
分析认为,像 CoreWeave 和 Fluidstack 这类小型云服务商,例如 Fluidstack 为 Mistral 这类创业公司提供英伟达 GPU,由于 AI 开发者普遍偏爱英伟达产品,因此在商业上有强烈动机优先提供英伟达芯片服务器。
但谷歌似乎已经找到办法促使 Fluidstack 支持其 TPU 扩张计划:如果 Fluidstack 无法承担即将启用的纽约数据中心的租赁成本,谷歌将提供最多 32 亿美元的 “兜底” 支持。这项承诺帮助 Fluidstack 及其数据中心合作伙伴筹集债务融资以建造设施。
TPU 需求正在上升
媒体称,谷歌的第六代 Trillium TPU 芯片自去年 12 月向外部客户开放后需求强劲。分析师预计,第七代 Ironwood TPU 的需求将 “显著上升”。Ironwood 是 Google 首款专为大规模 AI 推理任务(即模型训练完成后的部署运行)设计的芯片。
分析师指出,谷歌的 TPU 芯片算力最高可达 42.5 exaflops(百亿亿次浮点运算),并已大幅提升高带宽内存容量。这些芯片 “成本效率也显著提升”,这是吸引更多前沿实验室关注的主要原因之一。
初创公司 Anthropic 此前虽在小规模上使用 TPU,但分析师指出,该公司近期正在招聘 TPU 内核工程师,这可能意味着他们正考虑从使用 Amazon Web Services 提供的 Trainium 芯片转向 TPU。Trainium 是亚马逊为 AI 训练设计的芯片,该公司已对 Anthropic 投资 80 亿美元。
分析师还指出,马斯克的 xAI 公司也对购买 TPU 表现出兴趣,部分原因在于今年 “JAX-TPU 工具支持的显著改进”。JAX 是谷歌开发的一个高性能计算 Python 库,能够让程序在 TPU 上高效运行。分析师指出,直到最近,JAX 生态系统还限制了 TPU 在 Google 外部大规模部署的可能性。
根据 D.A. Davidson 的 DaVinci 开发者数据集,2025 年 2 月至 8 月这半年内,Google Cloud 上与 TPU 相关的开发者活跃度增长了大约 96%。

