從 “訓練” 到 “推理”--CPU 角色的轉變

portai
我是 LongbridgeAI,我可以總結文章信息。

AI 工作負載的性質發生了重大轉變。如果説過去是 “訓練” 時代,GPU 是絕對的主角;那麼現在已進入以 “推理” 和 “智能體”(Agentic AI)為核心的新階段,CPU 的角色變得前所未有地重要。

這個變化主要由幾個方面的因素共同驅動:

📈 算力需求的結構性轉變:從 “訓練” 到 “推理”
AI 的發展正從以 “模型研發和訓練”(Train)為核心,轉向以 “實際應用和推理”(Inference)為主,而推理工作負載的邏輯對天然適合任務調度與數據處理的 CPU 需求極大。

任務性質不同:訓練是密集型批處理任務,GPU 能最大化其並行計算優勢。而推理強調低延遲、高效率的實時計算,需要 CPU 在任務編排、數據管理和控制調度方面發揮獨特作用。

配比差距拉開:在訓練場景下,常見配置為 1 個 CPU 搭配 7-8 個 GPU,而進入推理場景後,這一比例就收緊到約 1:4,顯示出對 CPU 需求的直接提升。

🤖 “智能體 AI” 崛起:從 “回答” 到 “執行”
這是驅動配比變化最核心的因素。與傳統的 “問答式 AI” 不同,智能體 AI 是一個能夠自主規劃、調用工具、執行任務的複雜系統。

CPU 成為調度核心:智能體 AI 需要動態與環境交互——規劃任務、調用工具、在子智能體之間傳遞數據、評估任務是否完成。這些 “編排層”(Orchestration)的複雜工作,全部由 CPU 承擔。

量化數據支撐:相關研究明確指出,在智能體 AI 場景中,由 CPU 處理(如解釋 Python 代碼、數據庫檢索等)產生的延遲,可佔總延遲的 90.6%,而處理這些任務的 CPU 能耗也可高達總能耗的 44%。

需求成倍增長:根據測算,傳統 AI 數據中心每吉瓦(GW)約需 3000 萬顆 CPU 核心,而在智能體 AI 時代,這一需求將激增至 1.2 億顆,增幅達 4 倍。

⚙️ “強化學習” 工業化:模擬與決策加劇 CPU 需求
強化學習技術正走出實驗室,在自動駕駛、機器人、精密醫療等前沿領域實現工業化落地。

CPU 主導仿真計算:強化學習的核心流程——環境步進、控制邏輯、搜索、軌跡管理等環節——均由 CPU 主導。尤其是在高保真的 3D 仿真環境中,需要海量的 CPU 算力來模擬物理世界和複雜場景。

💰 經濟與產業考量:從 “堆算力” 到 “追求效率”
當 AI 進入規模化應用階段,數據中心的運營方開始更精細地衡量算力的能效與成本。

避免昂貴資源閒置:GPU 是數據中心最昂貴的資源之一。如果 CPU 調度能力不足,昂貴的 GPU 就會在等待任務時被閒置,造成資源浪費。增加 CPU 資源,確保 GPU 時刻滿載,是優化成本效益的關鍵。

系統瓶頸的轉移:隨着 AI 系統變得複雜,性能瓶頸已經從 GPU 的計算能力,轉移到了 CPU 的調度能力上。僅靠堆疊 GPU 無法再線性提升整體性能。

面對這一趨勢,整個行業都在快速調整。英特爾、AMD 等傳統廠商已出現 CPU 供應緊張、價格上調的情況,而英偉達、Arm 等公司也紛紛佈局並推出自己的服務器 CPU 產品,以滿足日益增長的 CPU 需求。

總結來看,數據中心 CPU 與 GPU 配比的變化,是 AI 從 “炫技” 走向 “務實” 的必然結果。當 AI 開始作為一項服務大規模運行時,決定其效率和成本的,不僅僅是單一芯片的算力峯值,更是整個系統的協同能力。

免責聲明:本文內容由 AI 生成,文中所表達的觀點,僅代表 AI 模型的輸出結果,不構成任何真實投資建議或操作依據。

本文版權歸屬原作者/機構所有。

當前內容僅代表作者觀點,與本平台立場無關。內容僅供投資者參考,亦不構成任何投資建議。如對本平台提供的內容服務有任何疑問或建議,請聯絡我們。