英偉達（GTC 紀要）：LPU 解構 AI 推理，算力工廠向太空進發

以下是$英偉達(NVDA.US) GTC 大會全文內容：

英偉達創始人兼 CEO 黃仁勳在 GTC 2026 大會上發表主題演講，核心議題涵蓋CUDA 平台 20 週年、推理拐點與算力需求爆發、Vera Rubin 系統架構、Groq 集成、OpenClaw 代理革命及物理 AI 與機器人：

CUDA 20 週年與平台飛輪效應

CUDA 已誕生 20 年。20 年來英偉達持續投入這一架構，從 SIMT（單指令多線程）到最近新增的 Tiles 以幫助編程 Tensor Core。CUDA 已集成進每一個生態系統，開源項目超過數十萬個。

英偉達的核心戰略可以用一張圖描述：安裝基數（install base）吸引開發者，開發者創造新算法實現突破（如深度學習），突破催生全新市場和生態，生態擴大安裝基數，飛輪加速旋轉。NVIDIA 庫的下載量在大規模基礎上仍加速增長。

由於 CUDA 支持 AI 全生命週期、所有數據處理平台和各類科學求解器，GPU 的有效使用壽命極長——六年前發售的 Ampere 在雲端的定價甚至在上漲。

CUDA 的起點可追溯到 25 年前 GeForce 的可編程着色器——這是世界上第一個可編程加速器（Pixel Shader）。GeForce 把 CUDA 帶到全世界，Alex Krizhevsky、Ilya Sutskever、Jeff Hinton、Andrew Ng 等人發現 GPU 可以加速深度學習，引發了 AI 大爆炸。

Neural Rendering 與 DLSS 5

黃仁勳展示了下一代圖形技術——Neural Rendering，即 3D 圖形與 AI 的融合，命名為 DLSS 5。其核心思路是將可控的 3D 圖形（結構化數據、虛擬世界的 ground truth）與生成式 AI（概率計算）結合：一個完全可預測，另一個概率性但高度逼真。結果是內容既美觀又可控。

這種"結構化信息 + 生成式 AI"的融合模式將在一個又一個行業中復現。結構化數據是可信 AI 的基礎。

數據處理平台：cuDF 與 cuVS

英偉達創建了兩個基礎庫：cuDF 用於結構化數據（數據幀），cuVS 用於向量存儲（語義數據、非結構化數據）。全球約 90% 每年生成的數據是非結構化數據（PDF、視頻、語音等），此前這些數據基本無法查詢和檢索。如今 AI 的多模態感知和理解能力使得對非結構化數據的索引成為可能。

合作案例：IBM 用 cuDF 加速 watsonx data；Dell 與英偉達合作創建 Dell AI 數據平台（集成 cuDF 和 cuVS）；Google Cloud 的 BigQuery 集成後，與 Snapchat 合作將計算成本降低近 80%。加速計算同時帶來速度、規模和成本三重收益。

加速計算的垂直整合與水平開放

英偉達是世界上第一家"垂直整合但水平開放"的公司。加速計算本質上是"應用加速"——必須理解應用、理解領域、理解算法，然後部署到數據中心、雲、邊緣或機器人系統等不同場景。英偉達垂直整合從芯片到系統到軟件庫，但水平上將技術開放集成到全球雲服務和 OEM 平台。

與各大雲廠商的合作：Google Cloud（加速 Vertex AI、BigQuery、JAX/XLA、PyTorch）、AWS（加速 EMR、SageMaker、Bedrock，並將 OpenAI 引入 AWS）、Microsoft Azure（AI Foundry、Bing Search、機密計算）、Oracle（英偉達是其第一個 AI 客户）、CoreWeave（全球首個 AI 原生雲）、Palantir 與 Dell 合作在任何國家/氣隙區域部署 AI 平台。

英偉達是世界上唯一在 PyTorch 和 JAX/XLA 上都表現卓越的加速器。

行業垂直覆蓋

GTC 覆蓋 AI 五層蛋糕的每一層：基礎設施、芯片、平台、模型、應用。

英偉達在以下垂直領域均有深度佈局：自動駕駛（Alpamayo）、金融服務（本次 GTC 最大參會羣體，從傳統量化轉向大規模深度學習）、醫療健康（AI 藥物發現、AI 診斷輔助）、工業製造（全球最大的 AI 工廠建設潮）、媒體娛樂/遊戲、量子計算（35 家公司共建量子-GPU 混合系統）、零售（$35 萬億行業，agentic 購物系統）、機器人與製造業（$50 萬億行業，110 個機器人蔘展）、電信（AI-RAN，與 Nokia、T-Mobile 合作）。

CUDA-X 庫是英偉達的"皇冠上的明珠"，本次 GTC 宣佈約 100 個庫、約 70 個新庫、約 40 個模型。cuDNN 徹底革命了 AI，引發了現代 AI 大爆炸。

AI 原生公司與風投浪潮

AI 原生創業公司獲得了$1,500 億風險投資，為人類歷史最大規模。這是首次投資規模從數百萬跳到數億乃至數十億美元級別，因為每家公司都需要大量算力和 token。這些公司要麼自建 token 生成能力，要麼在 Anthropic、OpenAI 等提供的 token 基礎上增值。

推理拐點：算力需求增長 100 萬倍

過去兩年發生了三個關鍵轉折：

1. 生成式 AI（ChatGPT，2022/23 年）：AI 從檢索式計算轉向生成式計算，根本改變了計算方式

2. 推理 AI（o1/o3）：使 AI 能夠反思、規劃、分解問題、基於研究自我驗證，使生成式 AI 變得可信和有根據

3. Agentic AI（Claude Code）：第一個代理模型，能讀取文件、編碼、編譯、測試、評估、迭代。已徹底革命軟件工程，100% 的英偉達工程師在使用 Claude Code、Codex 和 Cursor 中的一種或多種組合。

推理拐點已到來：AI 需要思考就需要推理，需要行動就需要推理，需要閲讀就需要推理。過去兩年，單次任務的計算需求增長了約 10,000 倍，使用量增長約 100 倍，綜合算力需求增長約 100 萬倍。所有 AI 公司都處於算力受限狀態——如果能獲得更多算力，收入就會增長。

去年 GTC 黃仁勳稱看到$5,000 億的高確信度需求（Blackwell 和 Rubin 至 2026 年）。如今，到 2027 年，他看到至少$1 萬億的需求，且實際需求可能遠超此數。

Grace Blackwell 的推理表現

2025 年是英偉達的"推理之年"。SemiAnalysis 進行了史上最全面的 AI 推理基準測試，結果顯示：

- 在 tokens/watt（吞吐量）和 token 速度（智能度）兩個維度上，英偉達均為全球最高性能

- Grace Blackwell NVLink 72 相比 Hopper H200 實現了 35 倍（實測 50 倍）的每瓦性能提升，而摩爾定律同期僅預期 1.5 倍

- 英偉達的 token 成本全球最低，"basically untouchable"

- SemiAnalysis 的 Dylan Patel 評價黃仁勳"sandbagged（保守了）"

以 Fireworks 為例：同一系統上，英偉達更新軟件後 token 速度從平均 700 tokens/s 提升至近 5,000 tokens/s，提升 7 倍。

Token 工廠經濟學

數據中心正從"文件存儲中心"轉變為"token 工廠"。每個工廠受限於功率（如 1GW），CEO 們需要管理 token 生產的吞吐量和速度。token 將像大宗商品一樣細分層級：

- 免費層：高吞吐、低速度

- $3/百萬 token 層

- $6/百萬 token 層

- $45/百萬 token 層

- 高級層：$150/百萬 token

以 1GW 數據中心為例，每 25% 功率分配一個層級：Grace Blackwell 可比 Hopper 生成 5 倍收入，Vera Rubin 可再提升 5 倍。

Vera Rubin 系統架構

Vera Rubin 是英偉達新一代 AI 系統，核心特徵：

- 100% 液冷（45°C 熱水冷卻），所有線纜取消，安裝時間從兩天縮短至兩小時

- 第六代 NVLink scale-up 交換系統（非以太網、非 InfiniBand），完全液冷

- 全新 CPU：面向極高單線程性能、極高數據吞出、極致能效，採用 LPDDR5，世界上唯一使用 LPDDR5 的數據中心 CPU，獨立 CPU 業務已確定將成為數十億美元級業務

- 全新 Groq 系統（第三代 LP30 芯片，三星製造），已量產

- 全球首款 CPO（共封裝光學）Spectrum-X 交換機，已全面量產，與 TSMC 共同發明 COUPE 工藝

- BlueField-4 存儲平台（Vera CPU + CX9）

Vera Rubin 已在 Microsoft Azure 上線運行（第一個 rack），Satya Nadella 已確認。英偉達供應鏈已可每週生產數千套系統，每月數 GW 級 AI 工廠產能。

Rubin Ultra：144 GPU 在一個 NVLink 域內，採用全新 Kyber 機架，計算節點垂直插入，中板後方用 NVLink 交換機替代銅纜。

在 1GW 工廠中，兩年內 token 生成速率從 2,200 萬提升至 7 億，350 倍提升。

Groq 集成：disaggregated inference

英偉達收購了 Groq 團隊並授權其技術。Groq 是確定性數據流處理器，靜態編譯、編譯器調度、大量 SRAM，專為推理設計。

單顆 Groq 芯片 500MB SRAM vs 單顆 Rubin 芯片 288GB，Groq 單獨無法承載主流大模型的參數和 KV Cache。

解決方案是通過 Dynamo 軟件實現 disaggregated inference（分解推理）：prefill 在 Vera Rubin 上完成，decode 的 attention 部分在 Vera Rubin 上完成（需大量數學運算），decode 的前饋網絡/token 生成部分 offload 到 Groq（需極低延遲、高帶寬）。兩者通過以太網緊密耦合（特殊模式將延遲降低約一半）。

效果：在最高價值層級上性能再提升 35 倍。如果大部分工作負載是高吞吐型，100% Vera Rubin 即可；如果有大量編碼等高價值 token 生成需求，建議 25% 數據中心配置 Groq + 75% Vera Rubin。

Groq LP30（三星製造）已量產，預計 Q3 發貨。

產品路線圖

- Blackwell/Rubin：Oberon 系統（標準機架），銅纜 scale-up（NVLink 72）；光學 scale-up 擴展至 NVLink 576

- Rubin Ultra：Kyber 機架，銅纜 scale-up 至 NVLink 144

- 下一代 Rubin Ultra：新芯片 + LP35（首次集成 NVFP4 計算結構）；Oberon + Spectrum-6 CPO

- Feynman（再下一代）：全新 GPU + LP40（LPU）+ Rosa CPU（以 Rosalind 命名）+ BlueField-5 + CX10；Kyber 銅纜 scale-up + Kyber CPO scale-up（首次同時支持銅纜和 CPO scale-up）

每年一個全新架構。銅纜、光學、CPO 三種互聯方式都會持續投入。

AI 工廠與 DSX 平台

英偉達從芯片公司轉型為 AI 工廠/AI 基礎設施公司。新平台 NVIDIA DSX（基於 Omniverse）用於在虛擬環境中設計 GW 級 AI 工廠：機架的機械、熱、電氣、網絡仿真，與電網交互調節功率，數據中心內部用 Max-Q 動態調節系統功率和冷卻，目標是"不浪費一瓦功率"。黃仁勳認為這裏有"2 倍的優化空間"。

此外，英偉達宣佈 Vera Rubin Space-1，計劃將數據中心部署到太空（需解決輻射散熱問題，太空中無傳導和對流，僅有輻射）。

OpenClaw 代理革命

OpenClaw 是人類歷史上最受歡迎的開源項目，幾周內超越了 Linux 30 年的成就。黃仁勳將其類比為"代理計算機的操作系統"——就像 Windows 使個人電腦成為可能，OpenClaw 使"個人代理"成為可能。

OpenClaw 具備：資源管理、工具調用、文件系統訪問、LLM 連接、任務調度（cron jobs）、問題分解、sub-agent 調用、多模態 I/O。

每家公司都需要 OpenClaw 戰略，就像曾經需要 Linux 戰略、HTTP/HTML 戰略、Kubernetes 戰略一樣。每家 SaaS 公司將變成 GaaS 公司（Agent-as-a-Service）。

但代理系統在企業網絡中可以訪問敏感信息、執行代碼、對外通信——這需要企業級安全。英偉達與 OpenClaw 創始人 Peter Steinberger 合作推出NemoClaw（OpenClaw 的企業安全參考設計），集成 OpenShell 技術，包含網絡護欄（network guardrail）和隱私路由器（privacy router），可連接各 SaaS 公司的策略引擎。

黃仁勳預測：未來每個工程師將獲得年度 token 預算，可能是基本薪資的一半，用於 10 倍放大生產力。"你的 offer 包含多少 token？"正成為硅谷的招聘工具。

NVIDIA 開放模型計劃與 Nemotron Coalition

英偉達在每個 AI 模型領域均達到前沿：Nemotron（語言）、Cosmos（世界基礎模型）、GR00T（通用機器人）、Alpamayo（自動駕駛）、BioNeMo（數字生物學）、Earth-2（AI 物理）。

Nemotron-3 在 OpenClaw 中排名全球前三。Nemotron-3 Ultra 將成為最佳 base model，支持各國構建主權 AI。

宣佈Nemotron Coalition合作伙伴：Black Forest Labs（圖像）、Cursor（編程）、LangChain（代理框架，十億下載量）、Mistral、Perplexity、Reflection、Sarvam（印度）、Thinking Machines Lab（Mira Murati 的實驗室）。

物理 AI 與機器人

幾乎所有在造機器人的公司都在與英偉達合作。英偉達提供三台計算機：訓練計算機、合成數據生成與仿真計算機、機器人內置計算機。

自動駕駛："自動駕駛的 ChatGPT 時刻已到來"。新增四家 robotaxi-ready 平台合作伙伴：比亞迪、現代、日產、吉利，合計年產 1,800 萬輛，加上此前的奔馳、豐田、通用。同時宣佈與 Uber 在多個城市部署 robotaxi。

工業機器人：ABB、Universal Robots、KUKA 等將英偉達物理 AI 模型集成到仿真系統中，部署到製造產線。

人形機器人：110 個機器人蔘展。Disney 的 Olaf 機器人現場演示——由 Jetson 驅動，在 Omniverse 中學習行走，使用 Newton 物理求解器（NVIDIA Warp + Disney + DeepMind 聯合開發）。

本文的風險披露與聲明：海豚君免責聲明及一般披露

Dolphin Research, a professional investment research team in the secondary market, offers insights into global core assets and opportunities with in-depth analysis and distinctive perspectives.

Download the Longbridge App to unlock an extensive range of content from Dolphin Research:

Covering interpretations of financial reports, summary analyses, in-depth data analyses, macro strategies, portfolio allocation insights, and more.