--- title: "开启存储下一个大机会!韩媒详解黄仁勋 “神秘推理上下文内存平台”" description: "英伟达在 CES 上发布 “推理上下文内存平台”(ICMS),将 AI 硬件重心转向高效存储。 它通过 DPU 管理大容量 SSD,解决了 AI 推理中激增的 “KV 缓存” 需求,使 NAND 闪存/SSD 成为核心计算部件。这直接激活了企业级存储市场,为三星、SK 海力士等头部厂商带来巨大新订单,开启行业新周期。" type: "news" locale: "zh-CN" url: "https://longbridge.com/zh-CN/news/273601443.md" published_at: "2026-01-25T05:28:05.000Z" --- # 开启存储下一个大机会!韩媒详解黄仁勋 “神秘推理上下文内存平台” > 英伟达在 CES 上发布 “推理上下文内存平台”(ICMS),将 AI 硬件重心转向高效存储。 它通过 DPU 管理大容量 SSD,解决了 AI 推理中激增的 “KV 缓存” 需求,使 NAND 闪存/SSD 成为核心计算部件。这直接激活了企业级存储市场,为三星、SK 海力士等头部厂商带来巨大新订单,开启行业新周期。 在 1 月 5 日的 2026 年国际消费电子展(CES)上,英伟达首席执行官黄仁勋发布了名为 “推理上下文内存平台”(ICMS)的全新硬件,旨在解决人工智能推理阶段爆炸式增长的数据存储需求。此举标志着 AI 硬件架构的重心正从单纯的算力堆叠向高效的上下文存储转移,**NAND 闪存和 SSD 有望接棒 HBM,成为下一个关键的增长引擎。** 《韩国经济日报》在 1 月 24 日的文章中介绍,黄仁勋在演讲中展示了一个被称为 “推理上下文内存平台”(Inference Context Memory Platform,简称 ICMS)的神秘黑色机架。这并非普通的硬件更新,而是一个旨在解决人工智能推理阶段数据瓶颈的关键创新。记者敏锐地捕捉到,这可能是继 HBM(高带宽内存)之后,存储行业的下一个爆发点。 这一平台的核心逻辑在于解决 AI 推理中的 “KV 缓存”(键值缓存)问题。随着 AI 从单纯的学习阶段转向大规模推理应用,数据量呈爆炸式增长,现有的 GPU 显存和服务器内存架构已难以满足需求。英伟达通过引入全新的数据处理单元(DPU)和海量 SSD(固态硬盘),构建了一个庞大的缓存池,试图打破这一物理限制。 这一技术变革对于韩国存储巨头三星电子和 SK 海力士来说,无疑是一个巨大的利好消息。报道认为,随着 ICMS 的推广,NAND 闪存将迎来类似 HBM 的 “黄金时代”。这不仅意味着存储容量需求的激增,更预示着存储架构的根本性变革——GPU 将可能绕过 CPU,直接与存储设备进行高速通信。 ## **KV 缓存爆炸式增长引发存储焦虑** 韩媒文章指出,黄仁勋引入 ICMS 技术的**核心动因在于 “KV 缓存” 的激增**。**在 AI 推理时代,KV 缓存是 AI 理解对话上下文、进行逻辑推理的关键。**例如,当用户向 AI 询问关于 G-Dragon 的复杂主观问题时,AI 需要调用模型内部数据和历史对话上下文(即 KV 缓存)进行权重分配和推理,以避免重复计算和幻觉。 随着 AI 从单纯的学习转向推理,以及应用场景向多模态扩展,所需处理的数据量呈现不规则且爆炸式的增长。英伟达发现,仅靠昂贵的 HBM 或常规 DRAM 已无法容纳海量的 KV 缓存,而现有的服务器内部存储架构在应对未来推理时代时显得捉襟见肘。因此,一种能承载海量数据且保持高效访问的专用存储平台成为刚需。 ## **DPU 驱动的 9600TB 巨量空间** 据韩媒文章,ICMS 平台的核心在于将 DPU 与超大容量 SSD 相结合。文章转述英伟达介绍,该平台采用了新的 “BlueField-4” DPU,充当数据传输的 “行政后勤官”,以减轻 CPU 负担。一个标准的 ICMS 机架包含 16 个 SSD 托架,每个托架配备 4 个 DPU 并管理 600TB 的 SSD,使得单个机架的总容量达到惊人的 9600TB。 这一容量远超传统 GPU 机架。相比之下,一套包含 8 个机架的 VeraRubin GPU 平台,其 SSD 总容量约为 4423.68TB。黄仁勋表示,通过 ICMS 平台,虚拟层面上将 GPU 的可用内存容量从以前的 1TB 提升到了 16TB。同时,借助 BlueField-4 的性能提升,该平台实现了每秒 200GB 的 KV 缓存传输速度,有效解决了大容量 SSD 在网络传输中的瓶颈问题。 ## **开启 NAND 闪存黄金时代** 文章指出,ICMS 平台主要利用的是 SSD,这直接利好 NAND 闪存制造商。过去几年,虽然 AI 火热,但镁光灯主要集中在 HBM 上,NAND 闪存和 SSD 并没有受到同等程度的关注。 英伟达将该平台定位为介于服务器内部本地 SSD 和外部存储之间的 “第 3.5 层” 存储。与昂贵且耗电的 DRAM 相比,由高性能 DPU 管理的 SSD 具备大容量、速度快且断电不丢失数据的优势,成为存储 KV 缓存的理想选择。 **这一架构变革直接利好三星电子和 SK 海力士。**由于 ICMS 对存储密度的极高要求,市场对企业级 SSD 和 NAND 闪存的需求将大幅攀升。此外,英伟达正在推进 “Storage Next”(SCADA)计划,旨在让 GPU 绕过 CPU 直接访问 NAND 闪存,进一步消除数据传输瓶颈。 SK 海力士已迅速响应这一趋势。据报道,SK 海力士副总裁金天成透露,公司正与英伟达合作开发名为 “AI-N P” 的原型产品,计划利用 PCIe Gen 6 接口,在今年年底推出支持 2500 万 IOPS(每秒读写次数)的存储产品,并预计到 2027 年底将性能提升至 1 亿 IOPS。随着各大厂商加速布局,NAND 闪存和 SSD 有望在 AI 推理时代迎来量价齐升的新周期。 以下是韩媒文章全文,由 AI 翻译: > 英伟达首席执行官黄仁勋在 2026 年国际消费电子展(CES)上发布了一个神秘的内存平台:“推理上下文内存平台”。今天,《科技与城市》栏目将深入探讨它究竟是什么。 > > ## 关键词:KV 缓存 > > 在 5 日(当地时间)于拉斯维加斯举行的 NVIDIA Live 大会上,NVIDIA 首席执行官黄仁勋在演讲结尾谈到了内存平台。我不禁竖起了耳朵。这会是下一个 HBM 吗? > > > 今日之星:黑色机架式 NVIDIA ICMS(推理上下文内存存储)。图片来源:NVIDIA > > 首席执行官黄仁勋指着的是 VeraRubin 人工智能计算平台一角的一个黑色机架。这个机架,也就是我们今天故事的主角,里面存放着海量的存储空间。 > > 首先,让我解释一下黄仁勋引入这项技术的原因。我们应该从 “KV 缓存” 说起,黄仁勋 CEO 在官方场合经常提到它。读者朋友们,你们可能在最近关于 GPU 和 AI 硬件的文章中已经多次听到过 KV 缓存这个名字。 > > 这个关键词在 AI 推理时代至关重要。它关乎 AI 理解对话上下文和高效计算的能力。我们举个简单的例子。假设你打开 OpenAI 的 ChatGPT 或 Google Gemini,问一个关于韩国流行歌手 G-Dragon 的问题。 > > 如果用户问的是 G-Dragon 的音乐、时尚或事业等客观信息,AI 可以根据它学习到的信息回答。但是,聊了一会儿之后,用户突然问:“那他为什么会成为他那个时代的 ‘偶像’ 呢?” 这就好比问了一个没有明确答案的论述题。这时,AI 就开始推理了。 > > 这就是 KV 缓存的关键所在:键和值。首先是键。我们很容易理解,但人工智能使用键向量来清晰地识别对话上下文中问题中的 “那个人” 是谁,以及答案的主题和目标(键)。然后,它会利用模型内部关于 G-Dragon 以及在与用户对话过程中收集到的各种数据(值)的中间计算结果,进行权重分配、推理,最终得出答案。 > > 如果没有 KV 缓存,如果每个问题都像第一次一样重新计算,GPU 将重复两到三次工作,从而降低效率。这可能导致人工智能出现幻觉和错误答案。然而,KV 缓存可以提高效率。基于 “注意力计算” 的推理,会重用从与用户的长时间对话中获得的各种数据并应用权重,速度更快,对话也更加自然。 > > > 图片由 NVIDIA 提供 > > 随着人工智能行业从学习向推理转型,这种键值缓存不再仅仅是辅助存储器。此外,所需的容量也在不断增加。 > > 首先,随着越来越多的人将生成式人工智能融入日常生活,数据量的不规则激增不可避免。随着图像和视频服务的加入,对人工智能高级推理和想象力的需求将进一步增长,数据量还将呈爆炸式增长。 > > 随着人工智能发现新信息的能力不断提升,它会在与用户的互动过程中,在各种场景下创建大量有用的键值缓存(KV 缓存)。 > > 面对键值缓存的爆炸式增长,NVIDIA 也对 GPU 流量进行了管理。他们将 GPU 分为两类:一类是大量生成键值缓存的 GPU,另一类是使用键值缓存的 GPU。然而,存储空间不足以存储所有这些缓存。 > > 当然,服务器内部的内存容量很大。GPU 旁边是 HBM 内存→如果不够用,就用 DRAM 模块→如果实在不行,甚至会在服务器内部使用 SSD 固态硬盘。然而,CEO 黄仁勋似乎已经意识到,这种架构在未来的推理时代将难以驾驭。因此,他在 CES 上发布了这款黑盒子。 > > > NVIDIA CEO 黄仁勋在 CES 2026 上推出 ICMS。图片由 NVIDIA YouTube 提供。 > > ## DPU + 超大容量 SSD = KV 缓存存储专用团队 > > > 这台黑色服务器是 “推理上下文内存平台”,简称 ICMS。让我们仔细看看它的规格。 > > 首先,驱动 ICMS 的设备是 DPU,即数据处理单元。读者可能对 GPU 和 CPU 比较熟悉,但服务器的隐藏动力源——DPU 也值得一看。 > > > NVIDIA 首席执行官黄仁勋发布了 BlueField-4 DPU。图片由 NVIDIA 提供。 > > DPU(数据处理单元)就像军队中的行政后勤官。如果说 CPU 是连长,那么 GPU 就是计算突击队员。DPU 负责弹药和食物的运送,甚至处理通信和移动,使 CPU 能够做出适当的决策,而 GPU 则专注于攻击。NVIDIA 的新型 DPU“Bluefield-4” 被赋予了一项新任务:ICMS。现在,让我们仔细看看 ICMS 平台。这个机架总共包含 16 个 SSD 托架。 > > > 图片来源:NVIDIA > > 每个托架配备四个 DPU,每个 DPU 管理 150TB 的 SSD。这意味着一个托架总共有 600TB 的缓存 SSD。 > > 这是一个相当大的存储容量。我们来比较一下。假设在 Blackwell GPU 服务器中,为了最大化 KV 缓存,我们在 SSD 放置区域安装了八个 3.84TB 的通用缓存 SSD。这样每台服务器就有 30.72TB 的 SSD,这意味着一个包含 18 台服务器的 GPU 机架的总 SSD 容量为 552.96TB。 > > 也就是说,单个 ICMS 托架的缓存 SSD 容量可以超过一个 GPU“机架” 所能容纳的容量。一个机架中的 SSD 总数为 600TB x 16,即 9600TB。这比一套完整的 VeraRubin 8 个 GPU 机架(4423.68TB,552.96 x 8)的 SSD 容量高出一倍多。 > > > 图片由 NVIDIA 提供 > > 黄仁勋在 CES 演讲中表示:“以前 GPU 的内存容量为 1TB,但通过这个平台,我们获得了 16TB 的存储容量。” > > 仔细想想,他的话似乎相当准确。一个完整的 VeraRubin 平台由八个 GPU 机架组成。每个机架有 72 个 GPU,共计 576 张存储卡。将 ICMS 的总容量 9600TB 除以 576 张存储卡,得出约 16.7TB。 > > 虽然人们仍然担心服务器的物理距离和 SSD 的传输速度,但 BlueField 4 性能的提升缓解了这些问题。黄仁勋解释说:“我们实现了与之前相同的每秒 200GB 的 KV 缓存传输速度。” > > 此外,现有的 GPU 服务器存在网络瓶颈,限制了 7.68TB 和 15.36TB 等大容量 SSD 的充分利用。这项基于 DPU 的网络改进似乎正是为了解决这些问题。 > > ## 被视为 “零” 的 NAND 闪存的黄金时代即将到来吗? > > > 图片由 NVIDIA 提供 > > NVIDIA 将此平台划分为 3.5 个内存组。第一组是 HBM,第二组是 DRAM 模块,第三组是服务器内部的本地 SSD,第四组是服务器外部的存储。ICMS 深入研究了介于第三组和第四组之间的神秘领域。与昂贵或耗电的 DRAM 不同,SSD 比硬盘速度更快、容量更大,即使断电也不会丢失数据(这得益于高性能 DPU),使其成为理想之选。 > > 该平台显然为三星电子和 SK 海力士提供了巨大的商机。仅一个机架就能增加 9,600 TB 的容量,这意味着他们可以销售比现有 NVIDIA 机架多数倍的 NAND 闪存,而且这仅仅是按位计算。此外,这款产品的开发商是 NVIDIA,一家全球所有人工智能公司都梦寐以求的公司,因此商机更加巨大。 > > > 三星电子的服务器固态硬盘。即使人工智能时代已经到来,NAND 闪存和固态硬盘的价格一直滞后,预计今年第一季度将出现大幅上涨。图片由三星电子提供。 > > 过去三年,尽管人工智能市场发展迅猛,但 NAND 闪存和固态硬盘 (SSD) 并未受到太多关注。这主要是因为与在 NAND 闪存发展中发挥关键作用的 HBM 相比,它们的利用率较低。NVIDIA 正从 ICMS 项目入手,筹备一个旨在进一步提升 SSD 利用率的项目。该项目是 “Storage Next”(也称为 SCADA,即 Scaled Accelerated Data Access,规模化加速数据访问)计划的一部分。目前,执行 AI 计算的 GPU 将直接访问 NAND 闪存(SSD)来获取各种数据,而无需经过 CPU 等控制单元。这是一个旨在消除 GPU 和 SSD 之间瓶颈的大胆设想。SK 海力士也已正式宣布正在开发 AI-N P,以顺应这一趋势。 SK 海力士副总裁金天成表示:“SK 海力士正与 NVIDIA 积极开展名为 ‘AI-N P’ 的初步实验(PoC)。” > > 他解释说:“基于 PCIe Gen 6、支持 2500 万 IOPS(每秒输入/输出操作数)的存储原型产品有望在今年年底发布。” 他还表示:“到 2027 年底,我们将能够生产出支持高达 1 亿 IOPS 的产品。” 2500 万 IOPS 是目前固态硬盘速度的 10 倍以上。 ### Related Stocks - [SOXX.US - 费城交易所 半导体 ETF - iShares](https://longbridge.com/zh-CN/quote/SOXX.US.md) - [NVDA.US - 英伟达](https://longbridge.com/zh-CN/quote/NVDA.US.md) - [PSI.US - 动态半导体 ETF - Invesco](https://longbridge.com/zh-CN/quote/PSI.US.md) - [XSD.US - 标普半导体 ETF - SPDR](https://longbridge.com/zh-CN/quote/XSD.US.md) - [SSNGY.US - 三星电子](https://longbridge.com/zh-CN/quote/SSNGY.US.md) - [FTXL.US - 纳斯达克半导体 ETF - First Trust](https://longbridge.com/zh-CN/quote/FTXL.US.md) ## Related News & Research | Title | Description | URL | |-------|-------------|-----| | Prediction: SanDisk's stock price will hit this level by the end of 2026 | Sandisk's red-hot stock market rally seems here to stay thanks to the favorable dynamics of the flash storage market. | [Link](https://longbridge.com/zh-CN/news/275987832.md) | | Samsung starts mass production of next-gen AI memory chip | Samsung Electronics has commenced mass production of its next-generation HBM4 memory chips designed for artificial intel | [Link](https://longbridge.com/zh-CN/news/275720777.md) | | Bessemer Group Inc. Grows Stake in Seagate Technology Holdings PLC $STX | Bessemer Group Inc. increased its stake in Seagate Technology Holdings PLC by 413.3% in Q3, owning 12,843 shares valued | [Link](https://longbridge.com/zh-CN/news/275224414.md) | | Samsung Electronics says it has shipped HBM4 chips to customers | (Add details) SEOUL, Feb 12 (Reuters) - Samsung Electronics (005930.KS) said on Thursday that it has begun shipping its | [Link](https://longbridge.com/zh-CN/news/275708115.md) | | Micro-Star revenue likely to remain flat in Q1, sources say | Micro-Star International Co. is expected to maintain flat revenue in Q1, surpassing earlier predictions of a decline. Th | [Link](https://longbridge.com/zh-CN/news/275781303.md) | --- > **免责声明**:本文内容仅供参考,不构成任何投资建议。