---
title: "AI 推理如何创造新的内存需求"
type: "News"
locale: "en"
url: "https://longbridge.com/en/news/289780630.md"
description: "随着单次推理输出 Token 量年增超 5 倍，KV 缓存需求爆发，推动英伟达 Dynamo、CMX 等缓存卸载方案落地，并催生 SSD POD 新市场。与此同时，智能体 AI 兴起推动 CPU 与 GPU 负载比例向 1:1 靠拢，带动 LPDRAM 需求扩张。HBM 之外，企业级 SSD、LPDRAM 及 DPU 配套存储正成为 AI 基础设施的新增长极。"
datetime: "2026-06-15T12:06:38.000Z"
locales:
  - [zh-CN](https://longbridge.com/zh-CN/news/289780630.md)
  - [en](https://longbridge.com/en/news/289780630.md)
  - [zh-HK](https://longbridge.com/zh-HK/news/289780630.md)
---

# AI 推理如何创造新的内存需求

AI 推理时代的到来，正在从根本上重塑半导体存储行业的需求格局。**随着每个问题的平均输出 Token 数量以每年超过 5 倍的速度激增，KV 缓存管理与智能体 AI 部署所带来的内存需求，已成为 AI 基础设施中最具挑战性、也最具市场潜力的新兴领域。**

在 2026 年 6 月举行的 GTC 台北大会上，英伟达创始人兼首席执行官黄仁勋明确指出，"AI 的内存系统将彻底变革存储系统"，并将内存系统列为 AI 基础设施中最具挑战性的部分之一。这一判断直接指向两个结构性需求驱动力：一是推理工作负载催生的 KV 缓存卸载需求，二是智能体 AI（Agentic AI）兴起带来的 CPU 内存需求扩张。

上述趋势对存储产业链的影响已开始显现。**英伟达相继推出 Dynamo 软件平台与 CMX 上下文内存存储平台，Arm、Intel、AMD 等主要芯片厂商亦在 2026 年密集发布面向智能体 AI 的新一代 CPU 产品，行业正加速从以吞吐量为导向的架构向以低延迟为导向的架构转型。**

## 推理侧扩展：Token 爆炸式增长重塑硬件需求

AI 推理阶段对硬件的要求与训练阶段存在本质差异。

根据英伟达公开数据，自 2024 年下半年以来，每个问题的平均输出 Token 数量以每年超过 5 倍的速度激增，目前已达约 30,000 至 40,000 个 Token。这一趋势表明，行业已进入英伟达"三大缩放定律"中的推理侧扩展"思考"阶段（Test-time Scaling）。

据 TrendForce 分析，AI 推理对硬件提出三项核心需求：更高的每秒查询率（QPS）、更长的上下文窗口，以及更多的推理步骤和智能体循环。这三项需求分别从不同维度驱动内存需求的结构性变化，具体体现在模型权重、KV 缓存与智能体 AI 三个层面。

模型权重属于静态内存分配，其占用量与模型参数规模直接挂钩，计算公式为：模型权重总大小 = 参数量 × 每个参数的字节数。随着模型规模持续扩大，这一静态占用构成了推理系统内存需求的基础底座。

## KV 缓存：动态膨胀催生卸载技术与 SSD POD 新市场

KV 缓存是推理阶段内存压力的核心来源。

KV 缓存存储推理预填充阶段生成的键值向量，以避免解码阶段的冗余计算，属于动态内存分配。其总大小由层数、KV 头数、每个头的维度、序列长度、批处理大小及精度共同决定，随对话长度和批处理规模的增长呈非线性膨胀。

在长上下文、高批处理的推理场景下，当 GPU 的 HBM 容量不足时，系统将被迫丢弃 KV 缓存并重新执行预填充计算，导致延迟上升、总拥有成本（TCO）增加。

为解决这一瓶颈，英伟达于 2025 年 3 月发布 KV 缓存卸载软件 Dynamo，将访问频率较低的 KV 缓存卸载至 CPU 内存和 SSD 等容量更大、成本更低的存储层级，确保数据在解码阶段保持可重用性。

与 Dynamo 配套，英伟达于 2026 年 1 月推出 CMX 上下文内存存储平台（CMX Context Memory Storage Platform），由 BlueField-4 DPU 管理，基于 BlueField-4 STX 机架构建，采用 64 颗 BlueField-4 DPU 管理每机架约 9,600 TB 的容量，在本地 SSD（G3 层）与共享存储（G4 层）之间新增 G3.5 层级的 Pod 级上下文存储层。

值得关注的是，在 COMPUTEX 2026 上展示的 BlueField-4 DPU 结构模型中，已配备 SK 海力士的 PEB210 E1.S 和 PE9010 M.2 SSD 样品。随着英伟达、谷歌等厂商相继推出 SSD POD 平台，这一细分市场的需求预计将持续攀升。

## 智能体 AI：CPU 与 GPU 比例向 1:1 重构，LPDRAM 需求随之扩张

智能体 AI 的规模化部署，正在引发 AI 服务器架构的另一场深层变革。

在 AI 智能体工作流中，模型需主动执行规划、工具调用、决策及代理操作，所有编排、数据路由与子智能体评估任务均由 CPU 承担。黄仁勋指出，智能体生活在纳秒级的世界中，超低延迟是首要需求，这使得 CPU 架构的重要性大幅提升。

TrendForce 预计，随着智能体 AI 部署规模扩大，CPU 与 GPU 的工作负载比例将从传统的 1:4 或 1:8 向约 1:1 转变，为 CPU 市场创造显著增量空间，并同步带动 CPU 内存需求的结构性增长。

英伟达于 2026 年推出专为智能体 AI 工作负载设计的 Vera CPU，根据原始规格，Vera 支持高达 1.5 TB 的 LPDDR5X 内存容量，是上一代 Grace CPU 的三倍。

不过，TrendForce 最新调查显示，英伟达已决定将下一代 Vera Rubin 超级芯片模块的 SOCAMM 内存容量减半，原因在于供应商 2027 年初步生产计划中分配给英伟达的 LPDRAM 产能不足，这一调整并不反映英伟达整体内存需求的下降。

在更广泛的 CPU 市场，2026 年正成为面向智能体 AI 的全面产品换代之年。Intel 推出 Xeon 6+（Clearwater Forest），AMD 发布 EPYC Venice，Arm 推出 Arm AGI CPU，Ampere 的 AmpereOne MX 亦预计于年内进入量产。多路竞争格局的形成，将进一步加速 CPU 内存需求的释放。

## 两大驱动力共振，存储产业链迎来结构性机遇

综合来看，AI 推理正在从两个相互独立却协同共振的维度重塑内存需求版图。

其一，推理工作负载驱动 KV 缓存消耗迅速扩大，KV 缓存卸载技术将大量数据引流至 CPU 内存和 SSD POD，随着相关平台加速落地，这一细分市场的需求可见度持续提升。

其二，智能体 AI 正将 CPU 与 GPU 的工作负载比例推向 1:1，为 CPU 及其配套 LPDRAM 创造了此前不曾有过的增量市场空间。

对于存储产业链的投资者而言，上述趋势意味着 HBM 之外，企业级 SSD、LPDRAM 及相关 DPU 配套存储产品正在成为 AI 基础设施投资的新焦点。

### Related Stocks

- [NVDA.US](https://longbridge.com/en/quote/NVDA.US.md)
- [NVDS.US](https://longbridge.com/en/quote/NVDS.US.md)
- [NVD.US](https://longbridge.com/en/quote/NVD.US.md)
- [NVDY.US](https://longbridge.com/en/quote/NVDY.US.md)
- [NVDL.US](https://longbridge.com/en/quote/NVDL.US.md)
- [NVDD.US](https://longbridge.com/en/quote/NVDD.US.md)
- [07388.HK](https://longbridge.com/en/quote/07388.HK.md)
- [NVDU.US](https://longbridge.com/en/quote/NVDU.US.md)
- [NVDQ.US](https://longbridge.com/en/quote/NVDQ.US.md)
- [NVDX.US](https://longbridge.com/en/quote/NVDX.US.md)
- [07788.HK](https://longbridge.com/en/quote/07788.HK.md)
- [NVDB.US](https://longbridge.com/en/quote/NVDB.US.md)
- [NVDG.US](https://longbridge.com/en/quote/NVDG.US.md)
- [NVDO.US](https://longbridge.com/en/quote/NVDO.US.md)
- [NVDW.US](https://longbridge.com/en/quote/NVDW.US.md)
- [NVYY.US](https://longbridge.com/en/quote/NVYY.US.md)
- [NYYY.US](https://longbridge.com/en/quote/NYYY.US.md)
- [DIPS.US](https://longbridge.com/en/quote/DIPS.US.md)
- [09388.HK](https://longbridge.com/en/quote/09388.HK.md)
- [MAGX.US](https://longbridge.com/en/quote/MAGX.US.md)
- [SMH.US](https://longbridge.com/en/quote/SMH.US.md)
- [SOXX.US](https://longbridge.com/en/quote/SOXX.US.md)
- [SOXL.US](https://longbridge.com/en/quote/SOXL.US.md)
- [SOXQ.US](https://longbridge.com/en/quote/SOXQ.US.md)
- [XSD.US](https://longbridge.com/en/quote/XSD.US.md)
- [PSI.US](https://longbridge.com/en/quote/PSI.US.md)
- [FTXL.US](https://longbridge.com/en/quote/FTXL.US.md)
- [ARM.US](https://longbridge.com/en/quote/ARM.US.md)
- [INTC.US](https://longbridge.com/en/quote/INTC.US.md)
- [AMD.US](https://longbridge.com/en/quote/AMD.US.md)
- [GOOGL.US](https://longbridge.com/en/quote/GOOGL.US.md)
- [GOOG.US](https://longbridge.com/en/quote/GOOG.US.md)
- [NVD.DE](https://longbridge.com/en/quote/NVD.DE.md)

## Related News & Research

- [Chip startup Tensordyne expects $200 million in orders for AI system to rival Nvidia](https://longbridge.com/en/news/289795764.md)
- [Nvidia or AMD: Top Investor Says Only One AI Stock Is Worth Buying](https://longbridge.com/en/news/289369149.md)
- [Upstart chipmakers keep challenging Nvidia. This time it's Microsoft-backed D-Matrix](https://longbridge.com/en/news/289195855.md)
- [Duos Technologies Secures Major GPU Financing for AI Expansion](https://longbridge.com/en/news/289471649.md)
- [Apple's Biggest AI Bet Yet Runs On NVIDIA, Not Its Own Chips](https://longbridge.com/en/news/289178134.md)