英伟达（GTC 纪要）：LPU 解构 AI 推理，算力工厂向太空进发

以下是$英伟达(NVDA.US) GTC 大会全文内容：

英伟达创始人兼 CEO 黄仁勋在 GTC 2026 大会上发表主题演讲，核心议题涵盖CUDA 平台 20 周年、推理拐点与算力需求爆发、Vera Rubin 系统架构、Groq 集成、OpenClaw 代理革命及物理 AI 与机器人：

CUDA 20 周年与平台飞轮效应

CUDA 已诞生 20 年。20 年来英伟达持续投入这一架构，从 SIMT（单指令多线程）到最近新增的 Tiles 以帮助编程 Tensor Core。CUDA 已集成进每一个生态系统，开源项目超过数十万个。

英伟达的核心战略可以用一张图描述：安装基数（install base）吸引开发者，开发者创造新算法实现突破（如深度学习），突破催生全新市场和生态，生态扩大安装基数，飞轮加速旋转。NVIDIA 库的下载量在大规模基础上仍加速增长。

由于 CUDA 支持 AI 全生命周期、所有数据处理平台和各类科学求解器，GPU 的有效使用寿命极长——六年前发售的 Ampere 在云端的定价甚至在上涨。

CUDA 的起点可追溯到 25 年前 GeForce 的可编程着色器——这是世界上第一个可编程加速器（Pixel Shader）。GeForce 把 CUDA 带到全世界，Alex Krizhevsky、Ilya Sutskever、Jeff Hinton、Andrew Ng 等人发现 GPU 可以加速深度学习，引发了 AI 大爆炸。

Neural Rendering 与 DLSS 5

黄仁勋展示了下一代图形技术——Neural Rendering，即 3D 图形与 AI 的融合，命名为 DLSS 5。其核心思路是将可控的 3D 图形（结构化数据、虚拟世界的 ground truth）与生成式 AI（概率计算）结合：一个完全可预测，另一个概率性但高度逼真。结果是内容既美观又可控。

这种"结构化信息 + 生成式 AI"的融合模式将在一个又一个行业中复现。结构化数据是可信 AI 的基础。

数据处理平台：cuDF 与 cuVS

英伟达创建了两个基础库：cuDF 用于结构化数据（数据帧），cuVS 用于向量存储（语义数据、非结构化数据）。全球约 90% 每年生成的数据是非结构化数据（PDF、视频、语音等），此前这些数据基本无法查询和检索。如今 AI 的多模态感知和理解能力使得对非结构化数据的索引成为可能。

合作案例：IBM 用 cuDF 加速 watsonx data；Dell 与英伟达合作创建 Dell AI 数据平台（集成 cuDF 和 cuVS）；Google Cloud 的 BigQuery 集成后，与 Snapchat 合作将计算成本降低近 80%。加速计算同时带来速度、规模和成本三重收益。

加速计算的垂直整合与水平开放

英伟达是世界上第一家"垂直整合但水平开放"的公司。加速计算本质上是"应用加速"——必须理解应用、理解领域、理解算法，然后部署到数据中心、云、边缘或机器人系统等不同场景。英伟达垂直整合从芯片到系统到软件库，但水平上将技术开放集成到全球云服务和 OEM 平台。

与各大云厂商的合作：Google Cloud（加速 Vertex AI、BigQuery、JAX/XLA、PyTorch）、AWS（加速 EMR、SageMaker、Bedrock，并将 OpenAI 引入 AWS）、Microsoft Azure（AI Foundry、Bing Search、机密计算）、Oracle（英伟达是其第一个 AI 客户）、CoreWeave（全球首个 AI 原生云）、Palantir 与 Dell 合作在任何国家/气隙区域部署 AI 平台。

英伟达是世界上唯一在 PyTorch 和 JAX/XLA 上都表现卓越的加速器。

行业垂直覆盖

GTC 覆盖 AI 五层蛋糕的每一层：基础设施、芯片、平台、模型、应用。

英伟达在以下垂直领域均有深度布局：自动驾驶（Alpamayo）、金融服务（本次 GTC 最大参会群体，从传统量化转向大规模深度学习）、医疗健康（AI 药物发现、AI 诊断辅助）、工业制造（全球最大的 AI 工厂建设潮）、媒体娱乐/游戏、量子计算（35 家公司共建量子-GPU 混合系统）、零售（$35 万亿行业，agentic 购物系统）、机器人与制造业（$50 万亿行业，110 个机器人参展）、电信（AI-RAN，与 Nokia、T-Mobile 合作）。

CUDA-X 库是英伟达的"皇冠上的明珠"，本次 GTC 宣布约 100 个库、约 70 个新库、约 40 个模型。cuDNN 彻底革命了 AI，引发了现代 AI 大爆炸。

AI 原生公司与风投浪潮

AI 原生创业公司获得了$1,500 亿风险投资，为人类历史最大规模。这是首次投资规模从数百万跳到数亿乃至数十亿美元级别，因为每家公司都需要大量算力和 token。这些公司要么自建 token 生成能力，要么在 Anthropic、OpenAI 等提供的 token 基础上增值。

推理拐点：算力需求增长 100 万倍

过去两年发生了三个关键转折：

1. 生成式 AI（ChatGPT，2022/23 年）：AI 从检索式计算转向生成式计算，根本改变了计算方式

2. 推理 AI（o1/o3）：使 AI 能够反思、规划、分解问题、基于研究自我验证，使生成式 AI 变得可信和有根据

3. Agentic AI（Claude Code）：第一个代理模型，能读取文件、编码、编译、测试、评估、迭代。已彻底革命软件工程，100% 的英伟达工程师在使用 Claude Code、Codex 和 Cursor 中的一种或多种组合。

推理拐点已到来：AI 需要思考就需要推理，需要行动就需要推理，需要阅读就需要推理。过去两年，单次任务的计算需求增长了约 10,000 倍，使用量增长约 100 倍，综合算力需求增长约 100 万倍。所有 AI 公司都处于算力受限状态——如果能获得更多算力，收入就会增长。

去年 GTC 黄仁勋称看到$5,000 亿的高确信度需求（Blackwell 和 Rubin 至 2026 年）。如今，到 2027 年，他看到至少$1 万亿的需求，且实际需求可能远超此数。

Grace Blackwell 的推理表现

2025 年是英伟达的"推理之年"。SemiAnalysis 进行了史上最全面的 AI 推理基准测试，结果显示：

- 在 tokens/watt（吞吐量）和 token 速度（智能度）两个维度上，英伟达均为全球最高性能

- Grace Blackwell NVLink 72 相比 Hopper H200 实现了 35 倍（实测 50 倍）的每瓦性能提升，而摩尔定律同期仅预期 1.5 倍

- 英伟达的 token 成本全球最低，"basically untouchable"

- SemiAnalysis 的 Dylan Patel 评价黄仁勋"sandbagged（保守了）"

以 Fireworks 为例：同一系统上，英伟达更新软件后 token 速度从平均 700 tokens/s 提升至近 5,000 tokens/s，提升 7 倍。

Token 工厂经济学

数据中心正从"文件存储中心"转变为"token 工厂"。每个工厂受限于功率（如 1GW），CEO 们需要管理 token 生产的吞吐量和速度。token 将像大宗商品一样细分层级：

- 免费层：高吞吐、低速度

- $3/百万 token 层

- $6/百万 token 层

- $45/百万 token 层

- 高级层：$150/百万 token

以 1GW 数据中心为例，每 25% 功率分配一个层级：Grace Blackwell 可比 Hopper 生成 5 倍收入，Vera Rubin 可再提升 5 倍。

Vera Rubin 系统架构

Vera Rubin 是英伟达新一代 AI 系统，核心特征：

- 100% 液冷（45°C 热水冷却），所有线缆取消，安装时间从两天缩短至两小时

- 第六代 NVLink scale-up 交换系统（非以太网、非 InfiniBand），完全液冷

- 全新 CPU：面向极高单线程性能、极高数据吞出、极致能效，采用 LPDDR5，世界上唯一使用 LPDDR5 的数据中心 CPU，独立 CPU 业务已确定将成为数十亿美元级业务

- 全新 Groq 系统（第三代 LP30 芯片，三星制造），已量产

- 全球首款 CPO（共封装光学）Spectrum-X 交换机，已全面量产，与 TSMC 共同发明 COUPE 工艺

- BlueField-4 存储平台（Vera CPU + CX9）

Vera Rubin 已在 Microsoft Azure 上线运行（第一个 rack），Satya Nadella 已确认。英伟达供应链已可每周生产数千套系统，每月数 GW 级 AI 工厂产能。

Rubin Ultra：144 GPU 在一个 NVLink 域内，采用全新 Kyber 机架，计算节点垂直插入，中板后方用 NVLink 交换机替代铜缆。

在 1GW 工厂中，两年内 token 生成速率从 2,200 万提升至 7 亿，350 倍提升。

Groq 集成：disaggregated inference

英伟达收购了 Groq 团队并授权其技术。Groq 是确定性数据流处理器，静态编译、编译器调度、大量 SRAM，专为推理设计。

单颗 Groq 芯片 500MB SRAM vs 单颗 Rubin 芯片 288GB，Groq 单独无法承载主流大模型的参数和 KV Cache。

解决方案是通过 Dynamo 软件实现 disaggregated inference（分解推理）：prefill 在 Vera Rubin 上完成，decode 的 attention 部分在 Vera Rubin 上完成（需大量数学运算），decode 的前馈网络/token 生成部分 offload 到 Groq（需极低延迟、高带宽）。两者通过以太网紧密耦合（特殊模式将延迟降低约一半）。

效果：在最高价值层级上性能再提升 35 倍。如果大部分工作负载是高吞吐型，100% Vera Rubin 即可；如果有大量编码等高价值 token 生成需求，建议 25% 数据中心配置 Groq + 75% Vera Rubin。

Groq LP30（三星制造）已量产，预计 Q3 发货。

产品路线图

- Blackwell/Rubin：Oberon 系统（标准机架），铜缆 scale-up（NVLink 72）；光学 scale-up 扩展至 NVLink 576

- Rubin Ultra：Kyber 机架，铜缆 scale-up 至 NVLink 144

- 下一代 Rubin Ultra：新芯片 + LP35（首次集成 NVFP4 计算结构）；Oberon + Spectrum-6 CPO

- Feynman（再下一代）：全新 GPU + LP40（LPU）+ Rosa CPU（以 Rosalind 命名）+ BlueField-5 + CX10；Kyber 铜缆 scale-up + Kyber CPO scale-up（首次同时支持铜缆和 CPO scale-up）

每年一个全新架构。铜缆、光学、CPO 三种互联方式都会持续投入。

AI 工厂与 DSX 平台

英伟达从芯片公司转型为 AI 工厂/AI 基础设施公司。新平台 NVIDIA DSX（基于 Omniverse）用于在虚拟环境中设计 GW 级 AI 工厂：机架的机械、热、电气、网络仿真，与电网交互调节功率，数据中心内部用 Max-Q 动态调节系统功率和冷却，目标是"不浪费一瓦功率"。黄仁勋认为这里有"2 倍的优化空间"。

此外，英伟达宣布 Vera Rubin Space-1，计划将数据中心部署到太空（需解决辐射散热问题，太空中无传导和对流，仅有辐射）。

OpenClaw 代理革命

OpenClaw 是人类历史上最受欢迎的开源项目，几周内超越了 Linux 30 年的成就。黄仁勋将其类比为"代理计算机的操作系统"——就像 Windows 使个人电脑成为可能，OpenClaw 使"个人代理"成为可能。

OpenClaw 具备：资源管理、工具调用、文件系统访问、LLM 连接、任务调度（cron jobs）、问题分解、sub-agent 调用、多模态 I/O。

每家公司都需要 OpenClaw 战略，就像曾经需要 Linux 战略、HTTP/HTML 战略、Kubernetes 战略一样。每家 SaaS 公司将变成 GaaS 公司（Agent-as-a-Service）。

但代理系统在企业网络中可以访问敏感信息、执行代码、对外通信——这需要企业级安全。英伟达与 OpenClaw 创始人 Peter Steinberger 合作推出NemoClaw（OpenClaw 的企业安全参考设计），集成 OpenShell 技术，包含网络护栏（network guardrail）和隐私路由器（privacy router），可连接各 SaaS 公司的策略引擎。

黄仁勋预测：未来每个工程师将获得年度 token 预算，可能是基本薪资的一半，用于 10 倍放大生产力。"你的 offer 包含多少 token？"正成为硅谷的招聘工具。

NVIDIA 开放模型计划与 Nemotron Coalition

英伟达在每个 AI 模型领域均达到前沿：Nemotron（语言）、Cosmos（世界基础模型）、GR00T（通用机器人）、Alpamayo（自动驾驶）、BioNeMo（数字生物学）、Earth-2（AI 物理）。

Nemotron-3 在 OpenClaw 中排名全球前三。Nemotron-3 Ultra 将成为最佳 base model，支持各国构建主权 AI。

宣布Nemotron Coalition合作伙伴：Black Forest Labs（图像）、Cursor（编程）、LangChain（代理框架，十亿下载量）、Mistral、Perplexity、Reflection、Sarvam（印度）、Thinking Machines Lab（Mira Murati 的实验室）。

物理 AI 与机器人

几乎所有在造机器人的公司都在与英伟达合作。英伟达提供三台计算机：训练计算机、合成数据生成与仿真计算机、机器人内置计算机。

自动驾驶："自动驾驶的 ChatGPT 时刻已到来"。新增四家 robotaxi-ready 平台合作伙伴：比亚迪、现代、日产、吉利，合计年产 1,800 万辆，加上此前的奔驰、丰田、通用。同时宣布与 Uber 在多个城市部署 robotaxi。

工业机器人：ABB、Universal Robots、KUKA 等将英伟达物理 AI 模型集成到仿真系统中，部署到制造产线。

人形机器人：110 个机器人参展。Disney 的 Olaf 机器人现场演示——由 Jetson 驱动，在 Omniverse 中学习行走，使用 Newton 物理求解器（NVIDIA Warp + Disney + DeepMind 联合开发）。

本文的风险披露与声明：海豚君免责声明及一般披露

Dolphin Research, a professional investment research team in the secondary market, offers insights into global core assets and opportunities with in-depth analysis and distinctive perspectives.

Download the Longbridge App to unlock an extensive range of content from Dolphin Research:

Covering interpretations of financial reports, summary analyses, in-depth data analyses, macro strategies, portfolio allocation insights, and more.