---
title: "AI 推理如何創造新的內存需求"
type: "News"
locale: "zh-HK"
url: "https://longbridge.com/zh-HK/news/289780630.md"
description: "隨着單次推理輸出 Token 量年增超 5 倍，KV 緩存需求爆發，推動英偉達 Dynamo、CMX 等緩存卸載方案落地，並催生 SSD POD 新市場。與此同時，智能體 AI 興起推動 CPU 與 GPU 負載比例向 1:1 靠攏，帶動 LPDRAM 需求擴張。HBM 之外，企業級 SSD、LPDRAM 及 DPU 配套存儲正成為 AI 基礎設施的新增長極。"
datetime: "2026-06-15T12:06:38.000Z"
locales:
  - [zh-CN](https://longbridge.com/zh-CN/news/289780630.md)
  - [en](https://longbridge.com/en/news/289780630.md)
  - [zh-HK](https://longbridge.com/zh-HK/news/289780630.md)
---

# AI 推理如何創造新的內存需求

AI 推理時代的到來，正在從根本上重塑半導體存儲行業的需求格局。**隨着每個問題的平均輸出 Token 數量以每年超過 5 倍的速度激增，KV 緩存管理與智能體 AI 部署所帶來的內存需求，已成為 AI 基礎設施中最具挑戰性、也最具市場潛力的新興領域。**

在 2026 年 6 月舉行的 GTC 台北大會上，英偉達創始人兼首席執行官黃仁勳明確指出，"AI 的內存系統將徹底變革存儲系統"，並將內存系統列為 AI 基礎設施中最具挑戰性的部分之一。這一判斷直接指向兩個結構性需求驅動力：一是推理工作負載催生的 KV 緩存卸載需求，二是智能體 AI（Agentic AI）興起帶來的 CPU 內存需求擴張。

上述趨勢對存儲產業鏈的影響已開始顯現。**英偉達相繼推出 Dynamo 軟件平台與 CMX 上下文內存存儲平台，Arm、Intel、AMD 等主要芯片廠商亦在 2026 年密集發佈面向智能體 AI 的新一代 CPU 產品，行業正加速從以吞吐量為導向的架構向以低延遲為導向的架構轉型。**

## 推理側擴展：Token 爆炸式增長重塑硬件需求

AI 推理階段對硬件的要求與訓練階段存在本質差異。

根據英偉達公開數據，自 2024 年下半年以來，每個問題的平均輸出 Token 數量以每年超過 5 倍的速度激增，目前已達約 30,000 至 40,000 個 Token。這一趨勢表明，行業已進入英偉達"三大縮放定律"中的推理側擴展"思考"階段（Test-time Scaling）。

據 TrendForce 分析，AI 推理對硬件提出三項核心需求：更高的每秒查詢率（QPS）、更長的上下文窗口，以及更多的推理步驟和智能體循環。這三項需求分別從不同維度驅動內存需求的結構性變化，具體體現在模型權重、KV 緩存與智能體 AI 三個層面。

模型權重屬於靜態內存分配，其佔用量與模型參數規模直接掛鈎，計算公式為：模型權重總大小 = 參數量 × 每個參數的字節數。隨着模型規模持續擴大，這一靜態佔用構成了推理系統內存需求的基礎底座。

## KV 緩存：動態膨脹催生卸載技術與 SSD POD 新市場

KV 緩存是推理階段內存壓力的核心來源。

KV 緩存存儲推理預填充階段生成的鍵值向量，以避免解碼階段的冗餘計算，屬於動態內存分配。其總大小由層數、KV 頭數、每個頭的維度、序列長度、批處理大小及精度共同決定，隨對話長度和批處理規模的增長呈非線性膨脹。

在長上下文、高批處理的推理場景下，當 GPU 的 HBM 容量不足時，系統將被迫丟棄 KV 緩存並重新執行預填充計算，導致延遲上升、總擁有成本（TCO）增加。

為解決這一瓶頸，英偉達於 2025 年 3 月發佈 KV 緩存卸載軟件 Dynamo，將訪問頻率較低的 KV 緩存卸載至 CPU 內存和 SSD 等容量更大、成本更低的存儲層級，確保數據在解碼階段保持可重用性。

與 Dynamo 配套，英偉達於 2026 年 1 月推出 CMX 上下文內存存儲平台（CMX Context Memory Storage Platform），由 BlueField-4 DPU 管理，基於 BlueField-4 STX 機架構建，採用 64 顆 BlueField-4 DPU 管理每機架約 9,600 TB 的容量，在本地 SSD（G3 層）與共享存儲（G4 層）之間新增 G3.5 層級的 Pod 級上下文存儲層。

值得關注的是，在 COMPUTEX 2026 上展示的 BlueField-4 DPU 結構模型中，已配備 SK 海力士的 PEB210 E1.S 和 PE9010 M.2 SSD 樣品。隨着英偉達、谷歌等廠商相繼推出 SSD POD 平台，這一細分市場的需求預計將持續攀升。

## 智能體 AI：CPU 與 GPU 比例向 1:1 重構，LPDRAM 需求隨之擴張

智能體 AI 的規模化部署，正在引發 AI 服務器架構的另一場深層變革。

在 AI 智能體工作流中，模型需主動執行規劃、工具調用、決策及代理操作，所有編排、數據路由與子智能體評估任務均由 CPU 承擔。黃仁勳指出，智能體生活在納秒級的世界中，超低延遲是首要需求，這使得 CPU 架構的重要性大幅提升。

TrendForce 預計，隨着智能體 AI 部署規模擴大，CPU 與 GPU 的工作負載比例將從傳統的 1:4 或 1:8 向約 1:1 轉變，為 CPU 市場創造顯著增量空間，並同步帶動 CPU 內存需求的結構性增長。

英偉達於 2026 年推出專為智能體 AI 工作負載設計的 Vera CPU，根據原始規格，Vera 支持高達 1.5 TB 的 LPDDR5X 內存容量，是上一代 Grace CPU 的三倍。

不過，TrendForce 最新調查顯示，英偉達已決定將下一代 Vera Rubin 超級芯片模塊的 SOCAMM 內存容量減半，原因在於供應商 2027 年初步生產計劃中分配給英偉達的 LPDRAM 產能不足，這一調整並不反映英偉達整體內存需求的下降。

在更廣泛的 CPU 市場，2026 年正成為面向智能體 AI 的全面產品換代之年。Intel 推出 Xeon 6+（Clearwater Forest），AMD 發佈 EPYC Venice，Arm 推出 Arm AGI CPU，Ampere 的 AmpereOne MX 亦預計於年內進入量產。多路競爭格局的形成，將進一步加速 CPU 內存需求的釋放。

## 兩大驅動力共振，存儲產業鏈迎來結構性機遇

綜合來看，AI 推理正在從兩個相互獨立卻協同共振的維度重塑內存需求版圖。

其一，推理工作負載驅動 KV 緩存消耗迅速擴大，KV 緩存卸載技術將大量數據引流至 CPU 內存和 SSD POD，隨着相關平台加速落地，這一細分市場的需求可見度持續提升。

其二，智能體 AI 正將 CPU 與 GPU 的工作負載比例推向 1:1，為 CPU 及其配套 LPDRAM 創造了此前不曾有過的增量市場空間。

對於存儲產業鏈的投資者而言，上述趨勢意味着 HBM 之外，企業級 SSD、LPDRAM 及相關 DPU 配套存儲產品正在成為 AI 基礎設施投資的新焦點。

### 相關股票

- [NVDA.US](https://longbridge.com/zh-HK/quote/NVDA.US.md)
- [NVDS.US](https://longbridge.com/zh-HK/quote/NVDS.US.md)
- [NVD.US](https://longbridge.com/zh-HK/quote/NVD.US.md)
- [NVDY.US](https://longbridge.com/zh-HK/quote/NVDY.US.md)
- [NVDL.US](https://longbridge.com/zh-HK/quote/NVDL.US.md)
- [NVDD.US](https://longbridge.com/zh-HK/quote/NVDD.US.md)
- [07388.HK](https://longbridge.com/zh-HK/quote/07388.HK.md)
- [NVDU.US](https://longbridge.com/zh-HK/quote/NVDU.US.md)
- [NVDQ.US](https://longbridge.com/zh-HK/quote/NVDQ.US.md)
- [NVDX.US](https://longbridge.com/zh-HK/quote/NVDX.US.md)
- [07788.HK](https://longbridge.com/zh-HK/quote/07788.HK.md)
- [NVDB.US](https://longbridge.com/zh-HK/quote/NVDB.US.md)
- [NVDG.US](https://longbridge.com/zh-HK/quote/NVDG.US.md)
- [NVDO.US](https://longbridge.com/zh-HK/quote/NVDO.US.md)
- [NVDW.US](https://longbridge.com/zh-HK/quote/NVDW.US.md)
- [NVYY.US](https://longbridge.com/zh-HK/quote/NVYY.US.md)
- [NYYY.US](https://longbridge.com/zh-HK/quote/NYYY.US.md)
- [DIPS.US](https://longbridge.com/zh-HK/quote/DIPS.US.md)
- [09388.HK](https://longbridge.com/zh-HK/quote/09388.HK.md)
- [MAGX.US](https://longbridge.com/zh-HK/quote/MAGX.US.md)
- [SMH.US](https://longbridge.com/zh-HK/quote/SMH.US.md)
- [SOXX.US](https://longbridge.com/zh-HK/quote/SOXX.US.md)
- [SOXL.US](https://longbridge.com/zh-HK/quote/SOXL.US.md)
- [SOXQ.US](https://longbridge.com/zh-HK/quote/SOXQ.US.md)
- [XSD.US](https://longbridge.com/zh-HK/quote/XSD.US.md)
- [PSI.US](https://longbridge.com/zh-HK/quote/PSI.US.md)
- [FTXL.US](https://longbridge.com/zh-HK/quote/FTXL.US.md)
- [ARM.US](https://longbridge.com/zh-HK/quote/ARM.US.md)
- [INTC.US](https://longbridge.com/zh-HK/quote/INTC.US.md)
- [AMD.US](https://longbridge.com/zh-HK/quote/AMD.US.md)
- [GOOGL.US](https://longbridge.com/zh-HK/quote/GOOGL.US.md)
- [GOOG.US](https://longbridge.com/zh-HK/quote/GOOG.US.md)
- [NVD.DE](https://longbridge.com/zh-HK/quote/NVD.DE.md)

## 相關資訊與研究

- [技嘉第 3 季推出貨櫃化 AI 工廠方案](https://longbridge.com/zh-HK/news/289730725.md)
- [美銀上修 2030 年 CPU 市場規模至 1700 億美元 調升超微、安謀（Arm）目標價](https://longbridge.com/zh-HK/news/289696606.md)
- [ChatGPT 每月活躍用戶突破十億大關 OpenAI 領跑 AI 聊天機器人競賽](https://longbridge.com/zh-HK/news/289769843.md)
- [芯片初創公司 Tensordyne 預計獲得 2 億美元訂單，其 AI 系統旨在與英偉達競爭](https://longbridge.com/zh-HK/news/289795764.md)
- [AI 需求加持 半導體下半年景氣看旺](https://longbridge.com/zh-HK/news/289676743.md)