从 “训练” 到 “推理”--CPU 角色的转变

portai
我是 LongbridgeAI,我可以总结文章信息。

AI 工作负载的性质发生了重大转变。如果说过去是 “训练” 时代,GPU 是绝对的主角;那么现在已进入以 “推理” 和 “智能体”(Agentic AI)为核心的新阶段,CPU 的角色变得前所未有地重要。

这个变化主要由几个方面的因素共同驱动:

📈 算力需求的结构性转变:从 “训练” 到 “推理”
AI 的发展正从以 “模型研发和训练”(Train)为核心,转向以 “实际应用和推理”(Inference)为主,而推理工作负载的逻辑对天然适合任务调度与数据处理的 CPU 需求极大。

任务性质不同:训练是密集型批处理任务,GPU 能最大化其并行计算优势。而推理强调低延迟、高效率的实时计算,需要 CPU 在任务编排、数据管理和控制调度方面发挥独特作用。

配比差距拉开:在训练场景下,常见配置为 1 个 CPU 搭配 7-8 个 GPU,而进入推理场景后,这一比例就收紧到约 1:4,显示出对 CPU 需求的直接提升。

🤖 “智能体 AI” 崛起:从 “回答” 到 “执行”
这是驱动配比变化最核心的因素。与传统的 “问答式 AI” 不同,智能体 AI 是一个能够自主规划、调用工具、执行任务的复杂系统。

CPU 成为调度核心:智能体 AI 需要动态与环境交互——规划任务、调用工具、在子智能体之间传递数据、评估任务是否完成。这些 “编排层”(Orchestration)的复杂工作,全部由 CPU 承担。

量化数据支撑:相关研究明确指出,在智能体 AI 场景中,由 CPU 处理(如解释 Python 代码、数据库检索等)产生的延迟,可占总延迟的 90.6%,而处理这些任务的 CPU 能耗也可高达总能耗的 44%。

需求成倍增长:根据测算,传统 AI 数据中心每吉瓦(GW)约需 3000 万颗 CPU 核心,而在智能体 AI 时代,这一需求将激增至 1.2 亿颗,增幅达 4 倍。

⚙️ “强化学习” 工业化:模拟与决策加剧 CPU 需求
强化学习技术正走出实验室,在自动驾驶、机器人、精密医疗等前沿领域实现工业化落地。

CPU 主导仿真计算:强化学习的核心流程——环境步进、控制逻辑、搜索、轨迹管理等环节——均由 CPU 主导。尤其是在高保真的 3D 仿真环境中,需要海量的 CPU 算力来模拟物理世界和复杂场景。

💰 经济与产业考量:从 “堆算力” 到 “追求效率”
当 AI 进入规模化应用阶段,数据中心的运营方开始更精细地衡量算力的能效与成本。

避免昂贵资源闲置:GPU 是数据中心最昂贵的资源之一。如果 CPU 调度能力不足,昂贵的 GPU 就会在等待任务时被闲置,造成资源浪费。增加 CPU 资源,确保 GPU 时刻满载,是优化成本效益的关键。

系统瓶颈的转移:随着 AI 系统变得复杂,性能瓶颈已经从 GPU 的计算能力,转移到了 CPU 的调度能力上。仅靠堆叠 GPU 无法再线性提升整体性能。

面对这一趋势,整个行业都在快速调整。英特尔、AMD 等传统厂商已出现 CPU 供应紧张、价格上调的情况,而英伟达、Arm 等公司也纷纷布局并推出自己的服务器 CPU 产品,以满足日益增长的 CPU 需求。

总结来看,数据中心 CPU 与 GPU 配比的变化,是 AI 从 “炫技” 走向 “务实” 的必然结果。当 AI 开始作为一项服务大规模运行时,决定其效率和成本的,不仅仅是单一芯片的算力峰值,更是整个系统的协同能力。

免责声明:本文内容由 AI 生成,文中所表达的观点,仅代表 AI 模型的输出结果,不构成任何真实投资建议或操作依据。

本文版权归属原作者/机构所有。

当前内容仅代表作者观点,与本平台立场无关。内容仅供投资者参考,亦不构成任何投资建议。如对本平台提供的内容服务有任何疑问或建议,请联系我们。