AI 芯片的主战场正在转向一个规模更大、竞争更激烈的领域——推理。 英伟达首席财务官 Colette Kress 在上周表示,英伟达最大的营收来源数据中心部门中,去年有超过 40% 的业务是有关部署 AI 模型,而非训练——这一比例是 AI 芯片市场开始转向的重要迹象。 训练 AI 模型的芯片需求一举推升英伟达成为 “芯片新王”,随着该行业的迅速发展,下一个市场焦点将是实际运行时用于推理的芯片。 相较于训练芯片而言,推理芯片对功耗和成本的要求没那么高,这同时也意味着竞争市场会变得更为激烈,英伟达的 “新王” 地位还能否延续? 从 GPU 到 LPU 在训练阶段,公司往往会给模型 “喂” 海量数据进行大规模神经网络的训练。由于高计算密度、低能耗、内存带宽大等要求,目前大多数 AI 模型的训练均依赖于英伟达的 GPU。 在推理阶段,AI 模型在训练的基础上,利用神经网络模型进行推理预测,从而响应用户指令。这类芯片(LPU)对整体性能的要求没有 GPU 那么高,但推理引擎性能更强。 对于 AI 芯片制造商们来说,推理芯片正在变得越来越重要,并在市场中占据越来越多的机遇。 据报道,Melius Research 的分析师 Ben Reitzes 在给客户的一份说明中表示: “有看法认为,英伟达未来在推理领域的市场份额将低于训练领域。” “这意味着即将到来的 ‘推理爆炸’ 可能会带来一波收益。” 美银分析师 Vivek Arya 同样认为,伴随 AI 模型训练投资激增,重点将转向从 AI 模型中创收,推理领域相较于英伟达主导的训练领域更具竞争力。 从英伟达给出的 “40%” 比例来看,现在推理技术的发展速度可能要比此前预期的快得多。今年年初,瑞银分析师曾预计,到明年,有 90% 的芯片需求将源于训练,推理芯片仅占到市场的 20%。 英伟达的竞争对手们正在蠢蠢欲动。 有观点认为,随着客户越来越讲求降低 AI 模型的运营成本,英特尔的芯片将越来越具吸引力。有消息称,英特尔擅长制造的芯片类型已经广泛用于推理领域,和英伟达更尖端、更昂贵的 H100 在实际推理应用中差别不大。 英特尔的 CEO Pat Gelsinger 在去年年底的一次采访中曾提到: “从经济学的角度看推理应用的话,我不会打造一个需要花费 4 万美元的全是 H100 的后台环境,因为它耗电太多,并且需要构建新的管理和安全模型,以及新的 IT 基础设施。” “如果我能在标准版的英特尔芯片上运行这些模型,就不会出现这些问题。” 除了英特尔和 AMD 等老牌芯片巨头,一些初创公司也可能 “乘风而起”。 谷歌前人工智能芯片工程师 Jonathan Ross 创立的公司 Groq 是挑战者之一,该公司开发的 LPU 宣称是 “史上最快大模型”,以每秒 500 个 token,彻底颠覆了 GPT-4 的 40 tok/s 的速度纪录。 黄仁勋:推理业务占 40%,AI 已成功 成本仍然是一道坎。包括亚马逊、谷歌、微软在内的巨头们一直致力于内部开发推理芯片,希望缩减运营成本。 Ross 指出: “对于推理领域,你能部署多少取决于成本。” “在谷歌,有很多模型都能训练成功,但其中的 80% 都没能部署,因为投产的成本太高了。” 芯片软件初创公司 SambaNova 的 CEO Rodrigo Liang 表示: “我们看到我们的推理应用案例正在迅速增长。” “人们开始意识到,80% 以上的成本将用于推理,我需要寻找替代解决方案。” 目前看来,英伟达仍在此次转向中处于领先地位。 据悉,英伟达一款即将推出的芯片在去年一项关键的人工智能推理基准测试中取得了行业领先的结果,延续了该公司多年来在竞争中的主导地位。 并且,英伟达最新的财报显示,该公司在 AI 芯片领域仍占有 80% 以上的市场份额。这意味着,在可预见的未来,英伟达的训练芯片预计仍将保持较高需求。 美东时间 2 月 23 日,英伟达 CEO 黄仁勋在接受《连线(Wired)》采访时表示,英伟达目前业务中推理占到 40%,这意味着 AI 模型将会很快落地。他表示: “我们热爱推理。让我估算的话,我认为英伟达今天的业务构成可能是 40% 的推理和 60% 的训练。为什么这是一件好事呢?因为这意味着人工智能终于取得了成功(AI is finally making it)。” “今天,每当你在云中输入一个提示,它会生成一些东西——可能是视频,可能是图像,可能是 2D,可能是 3D,可能是文本,可能是图表——这背后很可能就有一块英伟达 GPU。”