
英偉達發佈 Rubin CPX,瞄準超長上下文處理,黃仁勳稱一次推理數百萬 token

Rubin CPX 強化 AI 視頻生成和軟件開發能力,提供 30 petaflops 算力,相比 GB300 NVL72 系統,注意力加速 3 倍,2026 年底上市。黃仁勳説,Rubin CPX 是首款專為大規模上下文 AI 而構建的 CUDA GPU,模型可以同時進行數百萬個知識 token 的推理。英偉達稱,部署 1 億美元的新芯片硬件將為客户帶來高達 50 億美元收入。
美東時間 9 月 9 日週二,英偉達發佈新一代 Rubin CPX 芯片系統,專門針對 AI 視頻生成和軟件開發等大規模上下文處理任務,強化 AI 編碼和視頻處理能力。
Rubin CPX 定於 2026 年底上市,採用卡片形式,可集成到現有服務器設計中或作為獨立計算設備在數據中心運行。
這款芯片系統在技術規格上實現重大突破。Rubin CPX GPU 提供 30 千萬億次浮點(petaflops)運算能力(NVFP4 精度),配備 128GB GDDR7 內存,支持視頻解碼和編碼的硬件,相比英偉達 GB300 NVL72 系統,注意力加速 3 倍。

完整的 Vera Rubin NVL144 CPX 平台在單個機架中集成 144 個 Rubin CPX GPU、144 個 Rubin GPU 和 36 個 Vera CPU,提供 8 exaflops AI 性能,性能為英偉達 GB300 NVL72 系統的 7.5 倍。

英偉達 CEO 黃仁勳表示,Rubin CPX 是首款專為百萬級 token 處理而構建的 CUDA GPU。他説:
"正如 RTX 革命性地改變了圖形和物理 AI,Rubin CPX 是首款專為大規模上下文 AI 而構建的 CUDA GPU,模型可以同時進行數百萬個知識 token 的推理。"
英偉達宣稱,新芯片的投資回報率達到 30 至 50 倍,部署價值 1 億美元的新芯片硬件將為客户帶來高達 50 億美元收入,即從 1 億美元的資本支出中獲得高達 50 億美元的收入。該預測強調了英偉達對 AI 基礎設施商業價值的量化努力。
技術創新:分離式推理架構提升效率
Rubin CPX 採用分離式推理架構,將 AI 計算過程分為上下文階段和生成階段。上下文階段需要高吞吐量計算來處理大量輸入數據,而生成階段則依賴快速內存傳輸和高速互連。
這種設計允許兩個階段獨立處理,實現計算和內存資源的精準優化。Rubin CPX 專門針對計算密集型的上下文階段進行優化,與現有基礎設施協同工作,提供 3 倍的注意力加速性能。
該平台配備 100TB 高速內存和每秒 1.7 千萬億字節的內存帶寬,通過英偉達 Quantum-X800 InfiniBand 或 Spectrum-X 以太網連接,由 Dynamo 平台統一協調。

應用場景:重塑軟件開發和視頻生成
在軟件開發領域,Rubin CPX 使 AI 系統能夠處理整個代碼庫,維護跨文件依賴關係,理解倉庫級結構。這將編程助手從自動完成工具轉變為智能協作夥伴,能夠理解"大規模軟件項目"。
視頻生成方面,該系統可在單個芯片上完成解碼、編碼和處理,AI 模型能夠處理多達 100 萬個 token 的一小時內容。這為長視頻內容生成提供了前所未有的連貫性和記憶能力。
多家公司已表達合作意向。代碼生成公司 Cursor 計劃使用該技術進行代碼生成,視頻創作平台 Runway 將其應用於視頻生成工作流程,AI 研究公司 Magic 則計劃利用該技術構建具有 1 億 token 上下文窗口的基礎模型。
市場影響:鞏固英偉達 AI 基礎設施優勢
Rubin CPX 的發佈進一步鞏固了英偉達在 AI 基礎設施領域的領先地位。據分析師估計,英偉達的數據中心業務本財年收入有望達到 1840 億美元,超過業內其他公司的總收入。
該產品體現了英偉達在硬件和軟件創新方面的持續投入,這種速度是競爭對手尚未匹及的。通過專門針對特定 AI 工作負載優化硬件,英偉達繼續保持行業對其產品的依賴。
新平台預計將為企業構建下一代生成式 AI 應用創造新的可能性,特別是在需要處理大規模上下文的高價值推理用例中。這標誌着 AI 基礎設施從通用計算向專用優化的重要轉變。

