英偉達下場,首次優化 DeepSeek-R1!B200 性能狂飆 25 倍,碾壓 H100

華爾街見聞
2025.02.26 15:07
portai
我是 PortAI,我可以總結文章信息。

英偉達推出 DeepSeek-R1-FP4 優化方案,B200 性能提升 25 倍,推理吞吐量達到 21,088 token 每秒,成本降低 20 倍。新模型在 MMLU 基準測試中表現出色,達到了 FP8 模型性能的 99.8%。該優化方案已在 Hugging Face 開源,適用於支持 TensorRT-LLM 的英偉達 GPU,旨在實現高效、低成本的推理。網友對此表示驚歎,認為 FP4 技術將推動 AI 未來的發展。

當 FP4 的魔法與 Blackwell 的強大算力相遇,會碰撞出怎樣的火花?

答案是:推理性能暴漲 25 倍,成本狂降 20 倍!

隨着 DeepSeek-R1 本地化部署的爆火,英偉達也親自下場,開源了首個基於 Blackwell 架構的優化方案——DeepSeek-R1-FP4。

在新模型的加持下,B200 實現了高達 21,088 token 每秒的的推理吞吐量,相比於 H100 的 844 token 每秒,提升了 25 倍。

與此同時,每 token 的成本也實現了 20 倍的降低。

通過在 Blackwell 架構上應用 TensorRT DeepSeek 優化,英偉達讓具有 FP4 生產級精度的模型,在 MMLU 通用智能基準測試中達到了 FP8 模型性能的 99.8%。

DeepSeek-R1 首次基於 Blackwell GPU 優化

目前,英偉達基於 FP4 優化的 DeepSeek-R1 檢查點現已在 Hugging Face 上開源。

模型地址:https://huggingface.co/nvidia/DeepSeek-R1-FP4

後訓練量化

模型將 Transformer 模塊內的線性算子的權重和激活量化到了 FP4,適用於 TensorRT-LLM 推理。

這種優化將每個參數從 8 位減少到 4 位,從而讓磁盤空間和 GPU 顯存的需求減少了約 1.6 倍。

使用 TensorRT-LLM 部署

要使用 TensorRT-LLM LLM API 部署量化後的 FP4 權重文件,併為給定的提示生成文本響應,請參照以下示例代碼:

硬件要求:需要支持 TensorRT-LLM 的英偉達 GPU(如 B200),並且需要 8 個 GPU 來實現 tensor_parallel_size=8 的張量並行。

性能優化:代碼利用 FP4 量化、TensorRT 引擎和並行計算,旨在實現高效、低成本的推理,適合生產環境或高吞吐量應用。

對於此次優化的成果,網友表示驚歎。

「FP4 魔法讓 AI 未來依然敏鋭!」網友 Isha 評論道。

網友 algorusty 則聲稱,有了這次的優化後,美國供應商能夠以每百萬 token 0.25 美元的價格提供 R1。

「還會有利潤。」

網友 Phil 則將這次的優化與 DeepSeek 本週的開源 5 連發結合了起來。

「這展示了硬件和開源模型結合的可能性。」他表示。

DeepSeek 全面開源

如今 DeepSeek 持續 5 天的「開源周」已經進行到了第 3 天。

週一,他們開源了 FlashMLA。這是 DeepSeek 專為英偉達 Hopper GPU 打造的高效 MLA 解碼內核,特別針對變長序列進行了優化,目前已正式投產使用。

週二開源了 DeepEP,這是一個專為混合專家系統(MoE)和專家並行(EP)設計的通信庫。

週三開源的是 DeepGEMM。這是一個支持稠密和 MoE 模型的 FP8 GEMM(通用矩陣乘法)計算庫,可為 V3/R1 的訓練和推理提供強大支持。

總的來説,不管是英偉達開源的 DeepSeek-R1-FP4,還是 DeepSeek 開源的三個倉庫,都是通過對英偉達 GPU 和集羣的優化,來推動 AI 模型的高效計算和部署。

本文來源:新智元,原文標題:《英偉達下場,首次優化 DeepSeek-R1!B200 性能狂飆 25 倍,碾壓 H100》

風險提示及免責條款
市場有風險,投資需謹慎。本文不構成個人投資建議,也未考慮到個別用户特殊的投資目標、財務狀況或需要。用户應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資,責任自負。