老黄解锁 Rubin，AI 存储又添 “一把火”

在 AI 需求带动本轮存储 “超级” 周期的情况下，存储行业在昨晚再次迎来大涨（$闪迪(SNDK.US) +27%，$美光科技(MU.US) +10%），而这主要是黄仁勋在 CES2026 上的演讲给原本火热的存储市场又添上了 “一把火”。

Source：Longport.app

首先我们回顾一下，黄仁勋在 CES2026 大会上的核心内容，一方面是谈物理 AI 的广阔前景和落地场景；另一方面就是 Rubin 架构的进展和提升。而本次存储领域的大涨，正是由 Rubin 架构中更大的存储需求带来的。

整体来看：$英伟达(NVDA.US) Rubin 中变化最大的就是，在 “算力层 + 网络层” 的基础上，又新增了 “存储和安全层”。下游需求的增长，无疑会加剧存储市场的 “供需失衡” 的状态。

Rubin 对存储的影响，具体细分：①HBM 符合预期。升级至 HBM4，但单 GPU 搭载的容量不变；②DDR 略好于预期。单 CPU 搭载的 DDR 量提升至原来的 3 倍，综合来看 2026 年大致对应关系是单卡 GPU 配置 0.5TB 的 DDR 量；③NAND 是最超预期的部分，新增的推理 “上下文存储平台”（ICMS 平台），通过利用 NAND 担任为 “外挂内存”，减轻 HBM 原有的压力。

整体来看，在本次老黄 CES2026 演讲后，HBM 的需求量预期未变；DDR 的需求量增加了 1EB 左右，对应供需缺口扩大 1% 左右；对 NAND 需求量直接影响是增加了 45EB 左右，对应的供需缺口将扩大 4-5% 左右。

由于 NAND 是最为受益的部分，从昨天至今的股价表现也能看出，闪迪和铠侠的股价涨幅更为明显，海力士、三星的股价表现相对更弱。

以下是海豚君关于 Rubin 及老黄在 CES2026 演讲的核心内容：

一、Rubin 架构对存储需求的影响：

从 Blackwell 到 Rubin，HBM 依然是 AI 服务器中最为核心的部分，不会被新增的存储层（NAND）所替代。随着推理模型越来越大，HBM 会有容量压力。而将一部分原本塞入 HBM 的 KV cache 迁移至 BlueField-4+NAND 上，一定程度上减轻了 HBM 的压力。

黄仁勋在演讲中提到 Rubin 将从 NVL144 改回 NVL72，实质上是一样的。因为此前 144 是以 die 的个数来计算，而这次 72 是以 GPU 个数（1 个 GPU=2 个 die）来计。因而，在下面的需求量考虑中，海豚君也用 NVL72 的口径来预估。

1.1 HBM 的影响：不可替代的刚需

相比于 Blackwell，Rubin 将使用 HBM4 芯片。虽然 HBM4 在单 GPU 带宽有望达到 22TB/s（是 HBM3E 的 2.8 倍），但单 GPU 的 HBM4 容量将和 HBM3E 同样为 288GB，增长主要来自于 GPU 出货量的带动，是符合市场预期的；

1.2 DDR 的影响：主要在 CPU 中负责系统控制、数据预处理与上下文管理

相比于 Grace，单颗 Vera CPU 的 DDR 需求量将提升至 1.5TB（是 Grace 的 3 倍），基于单个 NVL72（72GPU+36CPU）来看，大约对 DDR 的需求量为 54TB，是此前的 3 倍左右（Blackwell 约为 18TB）。

从市场对英伟达 CoWoS 的预期来看，2026 年英伟达的 CoWoS 中大约是 B300 和 Rubin 是 1:1，以平均值预估 2026 年单个 NVL72 对 DDR 的需求量约为 36TB。换算来看，大致对应关系是 1 个 GPU 需要 0.5TB 的 DDR（略好于市场预期）。

结合当前市场预期的 2026 年 CoWoS 的总量来看，海豚君预估 2026 年 AI 服务器对传统 DDR 的需求将达到 91.9 亿 GB（9.2EB），同比增长 250%，比市场原有预期提升了 1EB 左右。

具体来看，AI 服务器在 CoWoS 产量提升和单台配置数量提升的带动下，2026 年 AI 服务器领域对传统 DDR 的需求增量将达到 66 亿 GB 左右（6.6EB），占 DRAM 整体市场供应量的 15-20%，这将直接侵蚀原有 PC、手机等领域的供应量。

1.3 NAND 的影响：用于系统启动和模型权重的预加载，Rubin 引入了 “推理上下文存储平台”

NAND 原本在 Blackwell 架构中，主要是用在系统中，负责系统启动和模型权重的预加载，单个 NVL72 大约需要是 500-1200TB 的容量（取中值 850TB）。

在本次老黄的演讲中，英伟达将在 Rubin 结构中新增 “推理上下文存储平台”（ICMS 平台），这是超预期的。新增的 ICMS 专用上下文存储，将 KV Cache 从 HBM 下沉至更具性价比的存储介质，释放 HBM 带宽用于计算，是推理成本降低 90% 的核心创新之一。

其中每个 Rubin GPU 可以额外扩展 16TB 的 NAND（作为 “外挂内存”），对于单个 NVL72 可以拓展 1152TB 的 NAND 需求。由于在 Rubin 结构中仍然需要 850TB 左右的 NVMe SSD，单个 NVL72 的合计 NAND 需求量将达到 2000TB 左右。

当前市场预估 2026 年英伟达 Rubin 的 CoWoS 量约为 35 万片，进而测算大约能生产 3.9 万台 NVL72 机柜。由于单个机柜将新增了 1152TB 的 NAND 需求（最超预期的部分），那么老黄本次演讲后让英伟达 Rubin 对 2026 年的 NAND 需求量将再次提升 44.8EB，这相当于 2025 年全球 NAND 供应总量的 4-5%，加大了供需缺口，给原本紧张的 NAND 供需格局又 “添了一把火”。

二、老黄的 CES2026：从 GPU 厂商转型为 AI 全栈基础设施提供商

英伟达 CEO 黄仁勋在 CES2026 发表主题演讲，最主要是围绕物理 AI 和 Vera Rubin 架构两大方面展开。

2.1 物理 AI-“ChatGPT 时刻”

AI 的发展过程：感知 AI->生成式 AI->AI 智能体->物理 AI

物理 AI 的定义：让 AI 理解重力、惯性、因果关系等物理定律，具备在真实世界中推理、规划、行动和解释的能力。不再仅仅是预先录制的程序，而是能实时 “思考” 的智能体。

技术原理：①通过合成数据生成（基于物理定律的基准真理）解决物理 AI 训练数据稀缺问题；②依赖三台计算机协同（训练 AI 的 GPU、推理用机器人计算机、模拟用 Omniverse 系统）；③核心模型（Cosmos 世界基础模型、GR00T 人形机器人系统）实现物理世界理解与交互；

落地场景：①自动驾驶（Alpamayo 端到端训练，从摄像头输入到执行输出，支持推理与轨迹规划）；②工业制造（西门子合作，数字孪生、工厂自动化、芯片设计模拟）；③机器人（人形机器人、移动机器人、手术机器人的动作与环境交互）；④天气预测（Earth 2 结合 ForecastNet/Cordiff 革新预测方式）。

2.2 NVIDIA Rubin 平台：最大增量 Context Memory

在本次 CES2026 大会上，老黄宣布 NVIDIA Rubin 平台已经进入全面生产阶段，并预计将于 2026 年下半年开始出货。

当前 AI 行业正经历从训练主导到推理主导的结构性转变：训练需求趋于稳定，而推理需求呈指数级增长；推理 token 成本已成为 AI 应用商业化的最大瓶颈，决定了产品定价与盈利能力。

黄仁勋在本次 CES2026 演讲中，提到了本次 Rubin 将通过 “六芯片全系统重构” 的方式，将推理 token 成本降至 Blackwell 平台的约 1/10。

NVIDIA Rubin 平台将由6 款全新的定制芯片（Vera CPU+Rubin GPU+ConnectX-9+BlueField-4+NVLink 6 Switch+Spectrum-6）组成。具体来看，英伟达从 Blackwell 架构到 Rubin 架构，在整体结构上实现了从 “算力层 + 网络层” 升级成了 “算力层 + 网络层 + 存储与安全层”。其中存储与安全层是在 Rubin 架构下最为明显的增量，这也是带动昨夜存储大涨的主要原因。

1）算力层：核心依然是 Vera CPU+ Rubin GPU。

①Vera CPU：专为大规模 AI 工厂的代理推理（Agentic Reasoning）设计，承担模型协同、任务拆解与算力分配的 “调度” 角色。

Vera CPU采用 88 个定制化 Olympus 核心，支持空间多线程（Spatial Multi-Threading），176 个全性能线程。具有 1.8TB/s NVLink-C2C 互连速率、1.5TB LPDDR5X 系统内存（为前代 Grace CPU 的 3 倍），内存带宽 1.2TB/s；

②Rubin GPU：还是超大规模模型训练与高吞吐量推理的“算力引擎”。

Rubin GPU的推理算力为 50 PFLOPS（NVFP4 精度下，为 Blackwell GPU 的 5 倍），训练算力为 35 PFLOPS（NVFP4 精度下，为 Blackwell 的 3.5 倍）。搭载的 HBM4 内存带宽将达到 22TB/s（为 Blackwell 的 2.8 倍），NVLink 带宽也将是单 GPU 3.6TB/s（为 Blackwell 的 2 倍）。

2）网络层：ConnectX-9+ Spectrum-6 的“AI 以太网”

①ConnectX-9负责处理节点间的 AI 流量，解决传统以太网在 AI 场景下的 “高延迟、易拥堵” 问题。具有 800Gb/s 以太网速率（单端口），支持 200G PAM4 串并转换技术；

②Spectrum-6负责连接数千个 Rubin 机架，支持吉瓦级数据中心的规模化部署。支持 128 个 800Gb/s 或 512 个 200Gb/s 端口，实现 102.4Tb/s 的可扩展交换架构。

3）存储与安全层（新增）：BlueField-4

当 AI 服务器的重心从训练侧转向推理侧的过程中，明显遇到了 AI 推理阶段 “上下文内存不足” 的问题。针对于这一问题，英伟达在 Rubin 结构中增加了 BlueField-4 芯片，来承担起存储卸载、安全隔离、KV 缓存管理三大角色。

通过 BlueField-4，Rubin 平台实现了机架级 KV 缓存共享池和安全隔离：

a）每台 BlueField-4 可管理 150TB 上下文内存，为每个 Rubin GPU 额外扩展 16TB 的 NAND（作为 “外挂内存”），满足 10 万字长文档理解、数小时多轮对话等场景；

b）与传统存储相比，KV 缓存访问速度提升 5 倍，每秒 Token 处理量（推理吞吐量）和能效同步提升 5 倍，也能避免 GPU 因等待数据空转的问题；

c）通过高级安全可信资源架构（ASTRA）构建系统级安全屏障，解决 “数据隐私” 与 “多租户隔离” 难题：实现全链路加密、多租户隔离和可追溯性。

整体来看，从黄仁勋在本次 CES2026 的演讲来看，英伟达将从 GPU 厂商转型为 AI 全栈基础设施提供商。而公司在 AI 领域也已经开始了全栈布局：①芯片层（Vera CPU、Rubin GPU、Orin/Thor 芯片）；②硬件系统层（Vera Rubin 超级计算机、DGX Cloud）；③模型层（NeMo Tron、Cosmos 等开源基础模型 + 垂直领域模型）；④工具层（NeMo 系列库、蓝图构建框架）；⑤生态层（联合 Palantir、西门子等企业）。

<此处结束>

海豚君近期关于存储类及英伟达的相关文章回溯：

2026 年 1 月 6 日 AI 存储热点《存储猛拉，AI 存力超级周期到底有多神？》

2025 年 12 月 18 日美光电话会《美光（分析师小会）：现金优先用于扩大生产，HBM4 良率爬坡更快》

2025 年 12 月 18 日美光电话会《美光（纪要）：毛利率继续提升，幅度会放缓》

2025 年 12 月 18 日美光财报点评《美光 MU：AI 点燃存力，存储大周期启幕？》

2025 年 12 月 9 日英伟达热点《H200 放行：英伟达 6 万亿市值路的 “穿云箭”？》

2025 年 11 月 20 日英伟达纪要《英伟达（纪要）：明年目标毛利率 75%，Open AI 的合作并不盲目》

2025 年 11 月 20 日英伟达财报《比非农还重要！英伟达能再拯救美股吗？》

本文的风险披露与声明：海豚君免责声明及一般披露