最近,GPU Utils 更新了关于英伟达 H100 显卡供需现状的分析文章,里面主要透露、总结了当前影响 GPU 的主流厂商拥有显卡的数量以及对显卡的需求量。 作者表示,考虑到训练和推理性能,以及推理方面性价比,H100 是当下最受欢迎的 GPU(具体为 8-GPU HGX H100 SXM)。 GPU Utils 认为,保守估计,H100 的供给缺口达到 43 万张。 本文简要总结了一下文章核心数据供大家参考: ● OpenAI、特斯拉等厂商对 GPU 的需求量 ● OpenAI、特斯拉等厂商拥有的 GPU 数量 ● 供应瓶颈、其他核心数据 01「谁需要?」 需要 1000 张以上的 H100 或 A100 的公司: 1、训练 LLM 的创业公司: OpenAI (通过 Azure)、Anthropic、Inflection (通过 Azure 和 CoreWeave)、 Mistral AI; 2、云服务提供商: 三大云巨头:Azure、Google Cloud、AWS; 另一个公有云:Oracle; 更大的私有云:例如 CoreWeave、Lambda; 3、其他大公司: 特斯拉; 需要 100 张以上的 H100 或 A100 的公司: 对开源模型进行大量微调的初创公司。 02「要多少?」 1、OpenAI 可能需要 5 万张,Inflection 要 2.2 万张,Meta 需要 2.5 万张(也有人说 Meta 想要 10 万张或更多) 2、大型云厂商,每家可能需要 3 万张(Azure、Google Cloud、AWS、Oracle) 3、Lambda 和 CoreWeave 以及其他私有云可能总共需要 10 万张 4、Anthropic、Helsing、Mistral、Character,每家可能要 1 万张; 到这里,需求量就已经达到了约「43.2 万张」H100,以每块约 3.5 万美元计算,GPU 的价值约为「150 亿美元」。 而这,还不包括像字节(TikTok)、百度、腾讯这样需要大量 H800 的中国公司,以及一些需求正盛的金融公司: 如 Jane Street、JP Morgan、Two Sigma、Citadel 等金融巨头,正从数百台 A100 或 H100 开始部署,逐步增加至数千张 A/H100。 03「有多少?」 OpenAI、特斯拉等厂商拥有的 GPU 数量。 大公司 1、GPT-4 可能在 1w-2.5w 张 A100 上进行的训练,根据马斯克的说法,GPT-5 可能需要 3w-5w 张 H100; 2、Meta 约有 2.1 万张 A100; 3、Tesla 约有 7000 张 A100; 4、Stability AI 约有 5000 张 A100; 云厂商 1、GPC 约有 2.5 万块 H100;Azure 可能有 1-4 万块 H100,Oracle 可能类似;(其中,Azure 的大部分 GPU 都将流向 OpenAI。) 2、CoreWeavw 有 3.5-4 万块 H100——不是现货,而是预定的; 其他数据 1、Falcon-40B,在 384 个 A100 上进行训练; 2、Inflection,在其 GPT-3.5 等效模型中使用了 3500 个 H100; 04「谁供应?」 1、瓶颈在哪? 供应; 2、谁在制造 H100? 台积电; 3、三星、英特尔可以代工吗? 至少现在不行。目前,H100s 和其他 5nm 英伟达 GPU 均由台积电代工。 过去,英伟达曾尝试让三星代工,但后来换掉。未来,英伟达当然有可能与英特尔、三星合作,但短期无法缓解供给紧张。 05「其他核心数据」 1、人们需要哪些 GPU? 主要是 H100,具体来说,是 8-GPU HGX H100 SXM,因其在训练和推理最快,且在推理方面性价比最高。 训练方面,企业主要关注内存带宽、FLOPS、缓存和缓存延迟、FP8 计算等附加功能、计算性能(与 Cuda 核心数量相关)、互连速度(如 InfiniBand)等,H100 比 A100 更受青睐,部分原因是缓存延迟较低和 FP8 计算等。 2、H100 比 A100 快多少? 16-bit 推理速度提高约 3.5 倍,16-bit 训练速度提高约 2.3 倍。 3、为啥不买 AMD? 某私有云 CEO: 从理论上讲,一家公司可以购买一堆 AMD 的 GPU,但要让一切正常运转需要时间。 开发时间 (即使只要 2 个月),也可能就意味着比竞争对手更晚进入市场。所以,现在英伟达的护城河是 CUDA。 另一家私有云 CEO: 没有人愿意冒险部署 10,000 个 AMD GPU,这几乎是 3 亿美元的投资。 4、目前大家在使用什么云? a. OpenAI: Azure b. Inflection: Azure and CoreWeave c. Anthropic: AWS and Google Cloud d. Cohere: AWS e. Hugging Face: AWS f. Stability AI: AWS g. Character.ai: Google Cloud h. X.ai: Oracle i. Nvidia: Azure 来源:硬 AI,原文标题:《Nvidia H100 GPU 供需现状:保守估计,还差 43 万张!》 本文主要参考(原文链接): https://gpus.llm-utils.org/nvidia-h100-gpus-supply-and-demand/#which-gpus-do-people-need