--- title: "AI 推理如何創造新的內存需求" type: "News" locale: "zh-HK" url: "https://longbridge.com/zh-HK/news/289780630.md" description: "隨着單次推理輸出 Token 量年增超 5 倍,KV 緩存需求爆發,推動英偉達 Dynamo、CMX 等緩存卸載方案落地,並催生 SSD POD 新市場。與此同時,智能體 AI 興起推動 CPU 與 GPU 負載比例向 1:1 靠攏,帶動 LPDRAM 需求擴張。HBM 之外,企業級 SSD、LPDRAM 及 DPU 配套存儲正成為 AI 基礎設施的新增長極。" datetime: "2026-06-15T12:06:38.000Z" locales: - [zh-CN](https://longbridge.com/zh-CN/news/289780630.md) - [en](https://longbridge.com/en/news/289780630.md) - [zh-HK](https://longbridge.com/zh-HK/news/289780630.md) --- # AI 推理如何創造新的內存需求 AI 推理時代的到來,正在從根本上重塑半導體存儲行業的需求格局。**隨着每個問題的平均輸出 Token 數量以每年超過 5 倍的速度激增,KV 緩存管理與智能體 AI 部署所帶來的內存需求,已成為 AI 基礎設施中最具挑戰性、也最具市場潛力的新興領域。** 在 2026 年 6 月舉行的 GTC 台北大會上,英偉達創始人兼首席執行官黃仁勳明確指出,"AI 的內存系統將徹底變革存儲系統",並將內存系統列為 AI 基礎設施中最具挑戰性的部分之一。這一判斷直接指向兩個結構性需求驅動力:一是推理工作負載催生的 KV 緩存卸載需求,二是智能體 AI(Agentic AI)興起帶來的 CPU 內存需求擴張。 上述趨勢對存儲產業鏈的影響已開始顯現。**英偉達相繼推出 Dynamo 軟件平台與 CMX 上下文內存存儲平台,Arm、Intel、AMD 等主要芯片廠商亦在 2026 年密集發佈面向智能體 AI 的新一代 CPU 產品,行業正加速從以吞吐量為導向的架構向以低延遲為導向的架構轉型。** ## 推理側擴展:Token 爆炸式增長重塑硬件需求 AI 推理階段對硬件的要求與訓練階段存在本質差異。 根據英偉達公開數據,自 2024 年下半年以來,每個問題的平均輸出 Token 數量以每年超過 5 倍的速度激增,目前已達約 30,000 至 40,000 個 Token。這一趨勢表明,行業已進入英偉達"三大縮放定律"中的推理側擴展"思考"階段(Test-time Scaling)。 據 TrendForce 分析,AI 推理對硬件提出三項核心需求:更高的每秒查詢率(QPS)、更長的上下文窗口,以及更多的推理步驟和智能體循環。這三項需求分別從不同維度驅動內存需求的結構性變化,具體體現在模型權重、KV 緩存與智能體 AI 三個層面。 模型權重屬於靜態內存分配,其佔用量與模型參數規模直接掛鈎,計算公式為:模型權重總大小 = 參數量 × 每個參數的字節數。隨着模型規模持續擴大,這一靜態佔用構成了推理系統內存需求的基礎底座。 ## KV 緩存:動態膨脹催生卸載技術與 SSD POD 新市場 KV 緩存是推理階段內存壓力的核心來源。 KV 緩存存儲推理預填充階段生成的鍵值向量,以避免解碼階段的冗餘計算,屬於動態內存分配。其總大小由層數、KV 頭數、每個頭的維度、序列長度、批處理大小及精度共同決定,隨對話長度和批處理規模的增長呈非線性膨脹。 在長上下文、高批處理的推理場景下,當 GPU 的 HBM 容量不足時,系統將被迫丟棄 KV 緩存並重新執行預填充計算,導致延遲上升、總擁有成本(TCO)增加。 為解決這一瓶頸,英偉達於 2025 年 3 月發佈 KV 緩存卸載軟件 Dynamo,將訪問頻率較低的 KV 緩存卸載至 CPU 內存和 SSD 等容量更大、成本更低的存儲層級,確保數據在解碼階段保持可重用性。 與 Dynamo 配套,英偉達於 2026 年 1 月推出 CMX 上下文內存存儲平台(CMX Context Memory Storage Platform),由 BlueField-4 DPU 管理,基於 BlueField-4 STX 機架構建,採用 64 顆 BlueField-4 DPU 管理每機架約 9,600 TB 的容量,在本地 SSD(G3 層)與共享存儲(G4 層)之間新增 G3.5 層級的 Pod 級上下文存儲層。 值得關注的是,在 COMPUTEX 2026 上展示的 BlueField-4 DPU 結構模型中,已配備 SK 海力士的 PEB210 E1.S 和 PE9010 M.2 SSD 樣品。隨着英偉達、谷歌等廠商相繼推出 SSD POD 平台,這一細分市場的需求預計將持續攀升。 ## 智能體 AI:CPU 與 GPU 比例向 1:1 重構,LPDRAM 需求隨之擴張 智能體 AI 的規模化部署,正在引發 AI 服務器架構的另一場深層變革。 在 AI 智能體工作流中,模型需主動執行規劃、工具調用、決策及代理操作,所有編排、數據路由與子智能體評估任務均由 CPU 承擔。黃仁勳指出,智能體生活在納秒級的世界中,超低延遲是首要需求,這使得 CPU 架構的重要性大幅提升。 TrendForce 預計,隨着智能體 AI 部署規模擴大,CPU 與 GPU 的工作負載比例將從傳統的 1:4 或 1:8 向約 1:1 轉變,為 CPU 市場創造顯著增量空間,並同步帶動 CPU 內存需求的結構性增長。 英偉達於 2026 年推出專為智能體 AI 工作負載設計的 Vera CPU,根據原始規格,Vera 支持高達 1.5 TB 的 LPDDR5X 內存容量,是上一代 Grace CPU 的三倍。 不過,TrendForce 最新調查顯示,英偉達已決定將下一代 Vera Rubin 超級芯片模塊的 SOCAMM 內存容量減半,原因在於供應商 2027 年初步生產計劃中分配給英偉達的 LPDRAM 產能不足,這一調整並不反映英偉達整體內存需求的下降。 在更廣泛的 CPU 市場,2026 年正成為面向智能體 AI 的全面產品換代之年。Intel 推出 Xeon 6+(Clearwater Forest),AMD 發佈 EPYC Venice,Arm 推出 Arm AGI CPU,Ampere 的 AmpereOne MX 亦預計於年內進入量產。多路競爭格局的形成,將進一步加速 CPU 內存需求的釋放。 ## 兩大驅動力共振,存儲產業鏈迎來結構性機遇 綜合來看,AI 推理正在從兩個相互獨立卻協同共振的維度重塑內存需求版圖。 其一,推理工作負載驅動 KV 緩存消耗迅速擴大,KV 緩存卸載技術將大量數據引流至 CPU 內存和 SSD POD,隨着相關平台加速落地,這一細分市場的需求可見度持續提升。 其二,智能體 AI 正將 CPU 與 GPU 的工作負載比例推向 1:1,為 CPU 及其配套 LPDRAM 創造了此前不曾有過的增量市場空間。 對於存儲產業鏈的投資者而言,上述趨勢意味着 HBM 之外,企業級 SSD、LPDRAM 及相關 DPU 配套存儲產品正在成為 AI 基礎設施投資的新焦點。 ### 相關股票 - [NVDA.US](https://longbridge.com/zh-HK/quote/NVDA.US.md) - [NVDS.US](https://longbridge.com/zh-HK/quote/NVDS.US.md) - [NVD.US](https://longbridge.com/zh-HK/quote/NVD.US.md) - [NVDY.US](https://longbridge.com/zh-HK/quote/NVDY.US.md) - [NVDL.US](https://longbridge.com/zh-HK/quote/NVDL.US.md) - [NVDD.US](https://longbridge.com/zh-HK/quote/NVDD.US.md) - [07388.HK](https://longbridge.com/zh-HK/quote/07388.HK.md) - [NVDU.US](https://longbridge.com/zh-HK/quote/NVDU.US.md) - [NVDQ.US](https://longbridge.com/zh-HK/quote/NVDQ.US.md) - [NVDX.US](https://longbridge.com/zh-HK/quote/NVDX.US.md) - [07788.HK](https://longbridge.com/zh-HK/quote/07788.HK.md) - [NVDB.US](https://longbridge.com/zh-HK/quote/NVDB.US.md) - [NVDG.US](https://longbridge.com/zh-HK/quote/NVDG.US.md) - [NVDO.US](https://longbridge.com/zh-HK/quote/NVDO.US.md) - [NVDW.US](https://longbridge.com/zh-HK/quote/NVDW.US.md) - [NVYY.US](https://longbridge.com/zh-HK/quote/NVYY.US.md) - [NYYY.US](https://longbridge.com/zh-HK/quote/NYYY.US.md) - [DIPS.US](https://longbridge.com/zh-HK/quote/DIPS.US.md) - [09388.HK](https://longbridge.com/zh-HK/quote/09388.HK.md) - [MAGX.US](https://longbridge.com/zh-HK/quote/MAGX.US.md) - [SMH.US](https://longbridge.com/zh-HK/quote/SMH.US.md) - [SOXX.US](https://longbridge.com/zh-HK/quote/SOXX.US.md) - [SOXL.US](https://longbridge.com/zh-HK/quote/SOXL.US.md) - [SOXQ.US](https://longbridge.com/zh-HK/quote/SOXQ.US.md) - [XSD.US](https://longbridge.com/zh-HK/quote/XSD.US.md) - [PSI.US](https://longbridge.com/zh-HK/quote/PSI.US.md) - [FTXL.US](https://longbridge.com/zh-HK/quote/FTXL.US.md) - [ARM.US](https://longbridge.com/zh-HK/quote/ARM.US.md) - [INTC.US](https://longbridge.com/zh-HK/quote/INTC.US.md) - [AMD.US](https://longbridge.com/zh-HK/quote/AMD.US.md) - [GOOGL.US](https://longbridge.com/zh-HK/quote/GOOGL.US.md) - [GOOG.US](https://longbridge.com/zh-HK/quote/GOOG.US.md) - [NVD.DE](https://longbridge.com/zh-HK/quote/NVD.DE.md) ## 相關資訊與研究 - [技嘉第 3 季推出貨櫃化 AI 工廠方案](https://longbridge.com/zh-HK/news/289730725.md) - [芯片初創公司 Tensordyne 預計獲得 2 億美元訂單,其 AI 系統旨在與英偉達競爭](https://longbridge.com/zh-HK/news/289795764.md) - [美銀上修 2030 年 CPU 市場規模至 1700 億美元 調升超微、安謀(Arm)目標價](https://longbridge.com/zh-HK/news/289696606.md) - [ChatGPT 每月活躍用戶突破十億大關 OpenAI 領跑 AI 聊天機器人競賽](https://longbridge.com/zh-HK/news/289769843.md) - [AI 需求加持 半導體下半年景氣看旺](https://longbridge.com/zh-HK/news/289676743.md)