AWS CEO:亚马逊如何在 AI 时代逆袭?以超大规模交付更便宜、更可靠的 AI

华尔街见闻
2025.12.03 01:38
portai
我是 PortAI,我可以总结文章信息。

AWS AI 工厂为客户提供两种技术路线选择,客户可以选择 Nvidia-AWS AI 工厂集成方案,同时 AWS 提供基于自研 Trainium 芯片的方案。通过提供灵活的部署方式和更具成本效益的专用基础设施,亚马逊开始争夺对数据主权和合规性要求严格的高价值客户,例如政府机构和大型组织。

亚马逊云服务 (AWS) 正通过将 AI 基础设施直接部署到客户数据中心的方式重塑云计算市场格局。这一名为"AI 工厂"的新产品模式使政府和大型企业能够在满足合规要求的前提下大规模部署 AI 项目,同时保持对数据处理和存储位置的完全控制。

周二,AWS 在拉斯维加斯举行的 Re:Invent 2025 大会上发布了这一产品。AI 工厂将 Nvidia GPU、Trainium 芯片以及 AWS 网络、存储和数据库等基础设施部署到客户自有数据中心,专门为单一客户运营,像私有 AWS 区域一样运作。

该产品基于 AWS 为 Anthropic 打造的 Project Rainier 项目发展而来,并已在沙特阿拉伯与 Humain 的合作中得到应用。上个月,AWS 与 Humain 宣布扩大合作,计划部署约 15 万颗 AI 芯片,包括 Nvidia GB300 和 Trainium 芯片。

这一模式反映了云服务商在 AI 时代的战略转变:通过提供灵活的部署方式和更具成本效益的专用基础设施,争夺对数据主权和合规性要求严格的高价值客户。

双芯片战略满足不同需求

AWS AI 工厂为客户提供两种技术路线选择。客户可以选择 Nvidia-AWS AI 工厂集成方案,获得 Nvidia 硬件、全栈 Nvidia AI 软件以及 Nvidia 计算平台。AWS Nitro 系统、Elastic Fabric Adapter(EFA) 千万亿级网络以及 Amazon EC2 UltraClusters 支持 Nvidia Grace Blackwell 和下一代 Nvidia Vera Rubin 平台。

同时,AWS 提供基于自研 Trainium 芯片的方案。公司在 Re:Invent 大会上发布了 Trainium3 UltraServers,并公布了 Trainium4 芯片的规划细节。值得注意的是,AWS 计划让未来的 Trainium4 芯片兼容 Nvidia NVLink Fusion,增强两种方案间的互操作性。

Nvidia 负责超大规模和 HPC 业务的副总裁兼总经理 Ian Buck 表示:

大规模 AI 需要全栈方法——从先进的 GPU 和网络到优化数据中心每一层的软件和服务。通过将 Nvidia 最新的 Grace Blackwell 和 Vera Rubin 架构与 AWS 安全、高性能的基础设施和 AI 软件栈相结合,AWS AI 工厂让组织能够在极短时间内建立强大的 AI 能力,完全专注于创新而非集成。

沙特项目验证商业模式

沙特阿拉伯的 Humain 项目为 AWS AI 工厂模式提供了大规模商业化验证。Humain CEO Tareq Amin 表示:"AWS 在我们新 AI 区建设的 AI 工厂代表了 Humain 和 AWS 数千兆瓦级旅程的开端。从一开始,这一基础设施就是为满足日益增长的本地和全球 AI 计算需求而设计的。"

Tareq Amin 强调选择 AWS 的原因:"我们选择 AWS 是因为他们在大规模构建基础设施方面的经验、企业级可靠性、广泛的 AI 能力以及对该地区的深度承诺。通过对全球市场扩张的共同承诺,我们正在创建一个将塑造 AI 理念如何为整个世界构建、部署和扩展的生态系统。"

该项目涉及部署约 15 万颗 AI 芯片,包括 Nvidia GB300 和 Trainium 芯片,展示了 AWS 在超大规模 AI 基础设施交付方面的能力。

瞄准政府和高合规需求市场

AI 工厂产品主要针对对数据主权和合规性有严格要求的政府机构和大型组织。这种专用基础设施模式使客户能够在自有数据中心内运行 AWS 托管服务,包括基础模型,同时保持对数据处理和存储位置的控制。

这一定位与 AWS 近期的市场动作相呼应。据媒体报道,AWS 最近宣布计划投资 500 亿美元为美国政府扩展 AI 和高性能计算能力。

通过 AI 工厂模式,AWS 将云服务的灵活性与本地部署的合规性相结合,为客户提供了第三种选择。这种"私有 AWS 区域"的运作方式让组织能够利用 AWS 的管理服务和技术能力,同时满足监管机构对数据本地化和主权的要求。