--- title: "AI 推理如何创造新的内存需求" type: "News" locale: "zh-CN" url: "https://longbridge.com/zh-CN/news/289780630.md" description: "随着单次推理输出 Token 量年增超 5 倍,KV 缓存需求爆发,推动英伟达 Dynamo、CMX 等缓存卸载方案落地,并催生 SSD POD 新市场。与此同时,智能体 AI 兴起推动 CPU 与 GPU 负载比例向 1:1 靠拢,带动 LPDRAM 需求扩张。HBM 之外,企业级 SSD、LPDRAM 及 DPU 配套存储正成为 AI 基础设施的新增长极。" datetime: "2026-06-15T12:06:38.000Z" locales: - [zh-CN](https://longbridge.com/zh-CN/news/289780630.md) - [en](https://longbridge.com/en/news/289780630.md) - [zh-HK](https://longbridge.com/zh-HK/news/289780630.md) --- # AI 推理如何创造新的内存需求 AI 推理时代的到来,正在从根本上重塑半导体存储行业的需求格局。**随着每个问题的平均输出 Token 数量以每年超过 5 倍的速度激增,KV 缓存管理与智能体 AI 部署所带来的内存需求,已成为 AI 基础设施中最具挑战性、也最具市场潜力的新兴领域。** 在 2026 年 6 月举行的 GTC 台北大会上,英伟达创始人兼首席执行官黄仁勋明确指出,"AI 的内存系统将彻底变革存储系统",并将内存系统列为 AI 基础设施中最具挑战性的部分之一。这一判断直接指向两个结构性需求驱动力:一是推理工作负载催生的 KV 缓存卸载需求,二是智能体 AI(Agentic AI)兴起带来的 CPU 内存需求扩张。 上述趋势对存储产业链的影响已开始显现。**英伟达相继推出 Dynamo 软件平台与 CMX 上下文内存存储平台,Arm、Intel、AMD 等主要芯片厂商亦在 2026 年密集发布面向智能体 AI 的新一代 CPU 产品,行业正加速从以吞吐量为导向的架构向以低延迟为导向的架构转型。** ## 推理侧扩展:Token 爆炸式增长重塑硬件需求 AI 推理阶段对硬件的要求与训练阶段存在本质差异。 根据英伟达公开数据,自 2024 年下半年以来,每个问题的平均输出 Token 数量以每年超过 5 倍的速度激增,目前已达约 30,000 至 40,000 个 Token。这一趋势表明,行业已进入英伟达"三大缩放定律"中的推理侧扩展"思考"阶段(Test-time Scaling)。 据 TrendForce 分析,AI 推理对硬件提出三项核心需求:更高的每秒查询率(QPS)、更长的上下文窗口,以及更多的推理步骤和智能体循环。这三项需求分别从不同维度驱动内存需求的结构性变化,具体体现在模型权重、KV 缓存与智能体 AI 三个层面。 模型权重属于静态内存分配,其占用量与模型参数规模直接挂钩,计算公式为:模型权重总大小 = 参数量 × 每个参数的字节数。随着模型规模持续扩大,这一静态占用构成了推理系统内存需求的基础底座。 ## KV 缓存:动态膨胀催生卸载技术与 SSD POD 新市场 KV 缓存是推理阶段内存压力的核心来源。 KV 缓存存储推理预填充阶段生成的键值向量,以避免解码阶段的冗余计算,属于动态内存分配。其总大小由层数、KV 头数、每个头的维度、序列长度、批处理大小及精度共同决定,随对话长度和批处理规模的增长呈非线性膨胀。 在长上下文、高批处理的推理场景下,当 GPU 的 HBM 容量不足时,系统将被迫丢弃 KV 缓存并重新执行预填充计算,导致延迟上升、总拥有成本(TCO)增加。 为解决这一瓶颈,英伟达于 2025 年 3 月发布 KV 缓存卸载软件 Dynamo,将访问频率较低的 KV 缓存卸载至 CPU 内存和 SSD 等容量更大、成本更低的存储层级,确保数据在解码阶段保持可重用性。 与 Dynamo 配套,英伟达于 2026 年 1 月推出 CMX 上下文内存存储平台(CMX Context Memory Storage Platform),由 BlueField-4 DPU 管理,基于 BlueField-4 STX 机架构建,采用 64 颗 BlueField-4 DPU 管理每机架约 9,600 TB 的容量,在本地 SSD(G3 层)与共享存储(G4 层)之间新增 G3.5 层级的 Pod 级上下文存储层。 值得关注的是,在 COMPUTEX 2026 上展示的 BlueField-4 DPU 结构模型中,已配备 SK 海力士的 PEB210 E1.S 和 PE9010 M.2 SSD 样品。随着英伟达、谷歌等厂商相继推出 SSD POD 平台,这一细分市场的需求预计将持续攀升。 ## 智能体 AI:CPU 与 GPU 比例向 1:1 重构,LPDRAM 需求随之扩张 智能体 AI 的规模化部署,正在引发 AI 服务器架构的另一场深层变革。 在 AI 智能体工作流中,模型需主动执行规划、工具调用、决策及代理操作,所有编排、数据路由与子智能体评估任务均由 CPU 承担。黄仁勋指出,智能体生活在纳秒级的世界中,超低延迟是首要需求,这使得 CPU 架构的重要性大幅提升。 TrendForce 预计,随着智能体 AI 部署规模扩大,CPU 与 GPU 的工作负载比例将从传统的 1:4 或 1:8 向约 1:1 转变,为 CPU 市场创造显著增量空间,并同步带动 CPU 内存需求的结构性增长。 英伟达于 2026 年推出专为智能体 AI 工作负载设计的 Vera CPU,根据原始规格,Vera 支持高达 1.5 TB 的 LPDDR5X 内存容量,是上一代 Grace CPU 的三倍。 不过,TrendForce 最新调查显示,英伟达已决定将下一代 Vera Rubin 超级芯片模块的 SOCAMM 内存容量减半,原因在于供应商 2027 年初步生产计划中分配给英伟达的 LPDRAM 产能不足,这一调整并不反映英伟达整体内存需求的下降。 在更广泛的 CPU 市场,2026 年正成为面向智能体 AI 的全面产品换代之年。Intel 推出 Xeon 6+(Clearwater Forest),AMD 发布 EPYC Venice,Arm 推出 Arm AGI CPU,Ampere 的 AmpereOne MX 亦预计于年内进入量产。多路竞争格局的形成,将进一步加速 CPU 内存需求的释放。 ## 两大驱动力共振,存储产业链迎来结构性机遇 综合来看,AI 推理正在从两个相互独立却协同共振的维度重塑内存需求版图。 其一,推理工作负载驱动 KV 缓存消耗迅速扩大,KV 缓存卸载技术将大量数据引流至 CPU 内存和 SSD POD,随着相关平台加速落地,这一细分市场的需求可见度持续提升。 其二,智能体 AI 正将 CPU 与 GPU 的工作负载比例推向 1:1,为 CPU 及其配套 LPDRAM 创造了此前不曾有过的增量市场空间。 对于存储产业链的投资者而言,上述趋势意味着 HBM 之外,企业级 SSD、LPDRAM 及相关 DPU 配套存储产品正在成为 AI 基础设施投资的新焦点。 ### 相关股票 - [NVDA.US](https://longbridge.com/zh-CN/quote/NVDA.US.md) - [NVDS.US](https://longbridge.com/zh-CN/quote/NVDS.US.md) - [NVD.US](https://longbridge.com/zh-CN/quote/NVD.US.md) - [NVDY.US](https://longbridge.com/zh-CN/quote/NVDY.US.md) - [NVDL.US](https://longbridge.com/zh-CN/quote/NVDL.US.md) - [NVDD.US](https://longbridge.com/zh-CN/quote/NVDD.US.md) - [07388.HK](https://longbridge.com/zh-CN/quote/07388.HK.md) - [NVDU.US](https://longbridge.com/zh-CN/quote/NVDU.US.md) - [NVDQ.US](https://longbridge.com/zh-CN/quote/NVDQ.US.md) - [NVDX.US](https://longbridge.com/zh-CN/quote/NVDX.US.md) - [07788.HK](https://longbridge.com/zh-CN/quote/07788.HK.md) - [NVDB.US](https://longbridge.com/zh-CN/quote/NVDB.US.md) - [NVDG.US](https://longbridge.com/zh-CN/quote/NVDG.US.md) - [NVDO.US](https://longbridge.com/zh-CN/quote/NVDO.US.md) - [NVDW.US](https://longbridge.com/zh-CN/quote/NVDW.US.md) - [NVYY.US](https://longbridge.com/zh-CN/quote/NVYY.US.md) - [NYYY.US](https://longbridge.com/zh-CN/quote/NYYY.US.md) - [DIPS.US](https://longbridge.com/zh-CN/quote/DIPS.US.md) - [09388.HK](https://longbridge.com/zh-CN/quote/09388.HK.md) - [MAGX.US](https://longbridge.com/zh-CN/quote/MAGX.US.md) - [SMH.US](https://longbridge.com/zh-CN/quote/SMH.US.md) - [SOXX.US](https://longbridge.com/zh-CN/quote/SOXX.US.md) - [SOXL.US](https://longbridge.com/zh-CN/quote/SOXL.US.md) - [SOXQ.US](https://longbridge.com/zh-CN/quote/SOXQ.US.md) - [XSD.US](https://longbridge.com/zh-CN/quote/XSD.US.md) - [PSI.US](https://longbridge.com/zh-CN/quote/PSI.US.md) - [FTXL.US](https://longbridge.com/zh-CN/quote/FTXL.US.md) - [ARM.US](https://longbridge.com/zh-CN/quote/ARM.US.md) - [INTC.US](https://longbridge.com/zh-CN/quote/INTC.US.md) - [AMD.US](https://longbridge.com/zh-CN/quote/AMD.US.md) - [GOOGL.US](https://longbridge.com/zh-CN/quote/GOOGL.US.md) - [GOOG.US](https://longbridge.com/zh-CN/quote/GOOG.US.md) - [NVD.DE](https://longbridge.com/zh-CN/quote/NVD.DE.md) ## 相关资讯与研究 - [据报道,英伟达计划通过高等级债券发行筹集至少 200 亿美元](https://longbridge.com/zh-CN/news/289781870.md) - [战争溢价退潮,“战前剧本” 重启!华尔街吹响市场反攻号角 “AI 算力天团” 率先冲锋](https://longbridge.com/zh-CN/news/289760775.md) - [烧不起了!Meta 喊停 Token 消耗战 明年起将限制预算](https://longbridge.com/zh-CN/news/289783717.md) - [粤芯半导体 IPO:何时盈利或是哥德巴赫猜想,退市警钟长鸣](https://longbridge.com/zh-CN/news/289682715.md) - [晶圆制造企业粤芯半导体今日上会,三年累亏超 67 亿元,公司预测最早可在 2029 年实现盈利](https://longbridge.com/zh-CN/news/289718326.md)