
英偉達下場,首次優化 DeepSeek-R1!B200 性能狂飆 25 倍,碾壓 H100

英偉達推出 DeepSeek-R1-FP4 優化方案,B200 性能提升 25 倍,推理吞吐量達到 21,088 token 每秒,成本降低 20 倍。新模型在 MMLU 基準測試中表現出色,達到了 FP8 模型性能的 99.8%。該優化方案已在 Hugging Face 開源,適用於支持 TensorRT-LLM 的英偉達 GPU,旨在實現高效、低成本的推理。網友對此表示驚歎,認為 FP4 技術將推動 AI 未來的發展。
當 FP4 的魔法與 Blackwell 的強大算力相遇,會碰撞出怎樣的火花?
答案是:推理性能暴漲 25 倍,成本狂降 20 倍!
隨着 DeepSeek-R1 本地化部署的爆火,英偉達也親自下場,開源了首個基於 Blackwell 架構的優化方案——DeepSeek-R1-FP4。

在新模型的加持下,B200 實現了高達 21,088 token 每秒的的推理吞吐量,相比於 H100 的 844 token 每秒,提升了 25 倍。
與此同時,每 token 的成本也實現了 20 倍的降低。
通過在 Blackwell 架構上應用 TensorRT DeepSeek 優化,英偉達讓具有 FP4 生產級精度的模型,在 MMLU 通用智能基準測試中達到了 FP8 模型性能的 99.8%。

DeepSeek-R1 首次基於 Blackwell GPU 優化
目前,英偉達基於 FP4 優化的 DeepSeek-R1 檢查點現已在 Hugging Face 上開源。

模型地址:https://huggingface.co/nvidia/DeepSeek-R1-FP4
後訓練量化
模型將 Transformer 模塊內的線性算子的權重和激活量化到了 FP4,適用於 TensorRT-LLM 推理。
這種優化將每個參數從 8 位減少到 4 位,從而讓磁盤空間和 GPU 顯存的需求減少了約 1.6 倍。
使用 TensorRT-LLM 部署
要使用 TensorRT-LLM LLM API 部署量化後的 FP4 權重文件,併為給定的提示生成文本響應,請參照以下示例代碼:
硬件要求:需要支持 TensorRT-LLM 的英偉達 GPU(如 B200),並且需要 8 個 GPU 來實現 tensor_parallel_size=8 的張量並行。
性能優化:代碼利用 FP4 量化、TensorRT 引擎和並行計算,旨在實現高效、低成本的推理,適合生產環境或高吞吐量應用。

對於此次優化的成果,網友表示驚歎。
「FP4 魔法讓 AI 未來依然敏鋭!」網友 Isha 評論道。

網友 algorusty 則聲稱,有了這次的優化後,美國供應商能夠以每百萬 token 0.25 美元的價格提供 R1。
「還會有利潤。」

網友 Phil 則將這次的優化與 DeepSeek 本週的開源 5 連發結合了起來。
「這展示了硬件和開源模型結合的可能性。」他表示。

DeepSeek 全面開源
週一,他們開源了 FlashMLA。這是 DeepSeek 專為英偉達 Hopper GPU 打造的高效 MLA 解碼內核,特別針對變長序列進行了優化,目前已正式投產使用。
週二開源了 DeepEP,這是一個專為混合專家系統(MoE)和專家並行(EP)設計的通信庫。
週三開源的是 DeepGEMM。這是一個支持稠密和 MoE 模型的 FP8 GEMM(通用矩陣乘法)計算庫,可為 V3/R1 的訓練和推理提供強大支持。
總的來説,不管是英偉達開源的 DeepSeek-R1-FP4,還是 DeepSeek 開源的三個倉庫,都是通過對英偉達 GPU 和集羣的優化,來推動 AI 模型的高效計算和部署。
本文來源:新智元,原文標題:《英偉達下場,首次優化 DeepSeek-R1!B200 性能狂飆 25 倍,碾壓 H100》

