
报道:英伟达 AI 芯片故障引发微软等客户砍单!股价一度重挫近 5%

英伟达最新一代 AI 芯片 Blackwell 在部署至数据中心时遭遇技术问题,包括服务器机架过热和芯片连接异常,导致多家客户(如微软、AWS、谷歌、Meta)推迟数据中心计划并削减订单。消息公布后,周一早盘,英伟达一度跌超 4.7%。
美东时间 1 月 13 日周一,据《The Information》报道,英伟达最新一代人工智能芯片 Blackwell 在部署至数据中心时遇到了技术问题,主要包括服务器机架过热和芯片连接异常。
这些问题对数据中心的部署进程造成阻碍,英伟达多家客户(包括微软、亚马逊旗下 AWS、谷歌、Meta)最近砍掉了部分 Blackwell GB200 机架的订单。
因延迟交付,微软原本计划安装大量 GB200 的凤凰城数据中心现在已经装满了 H200 芯片。有消息人士透露,如果英伟达无法解决这些问题,其性能可能会低于公司承诺的水平。
消息公布后,英伟达美股早盘一度跌超 4.7%。
主要客户削减订单,寻求替代方案
Blackwell 芯片以其卓越性能和高能效广受期待。与上一代产品 Hopper 相比,Blackwell 的能源效率提高了四倍,吸引了微软、亚马逊、谷歌和 Meta 等科技巨头。每家公司为此下达了价值逾 100 亿美元的订单。
然而,将多个高功耗芯片集成到一个服务器机架中比预期更具挑战。每个 Blackwell 机架比家用冰箱还高,重量接近一辆本田思域汽车。由于计算密度极高,机架必须采用水冷系统,而非传统的风冷系统。对于多数 AI 开发商和数据中心运营商而言,部署这种特殊机架是全新且复杂的任务。此外,并非所有数据中心都能满足这些机架的环境需求,客户必须重新规划部署方案。
因过热和连接问题,部分客户削减了 Blackwell GB200 机架的订单。例如,有客户选择等待可能在今年下半年推出的改进版本,另一些则计划采购英伟达的旧款 AI 芯片作为替代方案。虽然英伟达推荐整机架方案,但部分客户可能改为单独购买 Blackwell 芯片以便自行组装。
尽管面临挑战,英伟达仍有机会挽回局面。如果能够及时解决这些技术问题,客户或许会重新增加订单。此外,尽管机架存在问题,Blackwell 芯片的性能仍然优于上一代产品,英伟达可能会为问题机架找到其他买家。
英伟达去年 11 月曾预测,新一代 AI 芯片 Blackwell 将在今年第一季度为公司带来数十亿美元的收入,并助推其全年数据中心芯片收入从 475 亿美元增长至 1500 亿美元。Blackwell 芯片的高能效本是吸引云服务提供商的关键因素,这些供应商希望在固定能源条件下实现更高的计算效率。
芯片延迟影响数据中心部署计划
据知情人士透露,作为 OpenAI 的服务器提供商,微软原计划在其凤凰城的一个设施中安装至少包含 5 万枚 Blackwell 芯片的 GB200 机架。然而,由于 Blackwell 芯片从去年开始延迟交付,OpenAI 要求微软尽早为其提供上一代英伟达 H200 芯片。这一变化导致原本计划安装大量 GB200 的凤凰城数据中心现在已经装满了 H200 芯片。
据知情人士透露,微软现在计划在今年 3 月在凤凰城的一个设施中安装包含 12000 枚 Blackwell 芯片的 GB200 机架,这一数量约为最初计划的四分之一。另一位与微软合作的人士表示,该公司还计划在今年晚些时候 GB300 Blackwell 机架上市时进行采购。
英伟达原本计划在去年年底开始向客户交付 Blackwell 机架,但由于芯片设计缺陷导致初期延迟了三个月。尽管英伟达已经修复了这一问题,但到 11 月份时,客户开始担心机架的过热问题。为此,英伟达多次要求供应商更改设计。
然而,问题并未得到完全解决。据参与机架测试的三位人士透露,客户还发现芯片之间数据传输(即网络)存在不一致的情况。这些问题可能导致 Blackwell 机架的设置时间比预期更长,如果英伟达无法解决这些问题,其性能可能会低于公司承诺的水平。

