苹果官宣:支持 Apple Intelligence 的模型在谷歌定制芯片上训练

华尔街见闻
2024.07.29 23:35
portai
我是 PortAI,我可以总结文章信息。

苹果论文披露,在 8192 块谷歌 TPUv4 芯片上训练一个大型服务器语言模型——服务器苹果基础模型(AFM),进行 6.3 万亿 token 训练;端侧 AFM 在 2048 块 TPUv5p 芯片训练;AFM 和 AFM 服务是在 “云 TPU 集群” 上训练。

本文作者:李丹

来源:硬 AI

公开文件显示,苹果开发自家的人工智能(AI)系统 Apple Intelligence 离不开谷歌定制芯片的支持。

美东时间 7 月 29 日周一,苹果官网公布了一篇技术论文,详细介绍为支持苹果个人智能化系统 Apple Intelligence 而开发了一些基础语言模型,包括一个用于在设备上高效运行的约 30 亿参数模型——端侧 “苹果基础模型”(AFM),以及一个为苹果云端 AI 架构 “私有云计算”(Private Cloud Compute)而设计的大型服务器语言模型——服务器 AFM。

论文中,苹果介绍,端侧 AFM 和服务器 AFM 是苹果开发的生成式模型大家族成员,这些模型都用于支持用户和开发者。论文中,苹果披露,训练模型采用了谷歌研发的第四代 AI ASIC 芯片 TPUv4 和更新一代的芯片 TPUv5。文章写道:

“我们在 8192 块 TPUv4 芯片上从无到有训练服务器 AFM,使用 4096 的序列长度和 4096 个序列的批量大小,进行 6.3 万亿 token 训练。”

“端侧 AFM 在 2048 块 TPUv5p 芯片上进行训练。”

在这篇长达 47 页的论文中,苹果没有提到谷歌或是英伟达的名字,但表示,其 AFM 和 AFM 服务是在 “云 TPU 集群” 上训练。这意味着,苹果向云服务商租用了服务器执行计算。

事实上,今年 6 月的全球开发者大会(WWDC)期间,媒体已经在苹果公布的技术文件细节中发现,谷歌成为苹果在 AI 领域发力的另一位赢家。苹果的工程师在构建基础模型时运用了公司自研的框架软件及多种硬件,包括仅在谷歌云上可用的张量处理单元(TPU)。只不过,苹果未透露,相比英伟达等其他 AI 硬件供应商,苹果有多依赖谷歌的芯片和软件。

因此,本周一在社交媒体 X 上有评论指出,6 月就出过苹果用谷歌芯片的消息,现在我们有了更多关于训练堆栈的细节。

有评论称,苹果并不是讨厌英伟达,只不过 TPU 的速度更快。还有评论称,TPU 速度更快,所以苹果用它是有道理的,当然也可能它比英伟达的芯片更便宜。

本周一媒体评论称,谷歌的 TPU 最初是为内部工作负载而创建,现在正得到更广泛的应用。苹果用谷歌芯片训练模型的决定表明,在 AI 训练方面,一些科技巨头可能正在寻找并且已找到英伟达 AI 芯片的替代品。

华尔街见闻曾提到,上周,Meta 的 CEO 扎克伯格和 Alphabet 兼谷歌的 CEO 皮查伊都在讲话中暗示,他们的公司和其他科技业公司可能在 AI 基础设施方面投资过度,“可能过多投入 AI”。但他们同时都承认,如果不这样做,商业风险太高。

扎克伯格说:

“落后的后果是,你在未来 10 到 15 年内,都会在最重要的技术上处于不利地位。”

皮查伊说:

AI 成本高,但投资不足的风险更大。谷歌可能在 AI 基础设施上投资过多,主要包括购买英伟达的 GPU。即使 AI 热潮放缓,公司购买的数据中心和计算机芯片也可以用于其他用途。对我们来说,投资不足的风险远远大于投资过度的风险。