當 FP4 的魔法與 Blackwell 的強大算力相遇，會碰撞出怎樣的火花？
答案是：推理性能暴漲 25 倍，成本狂降 20 倍！
隨着 DeepSeek-R1 本地化部署的爆火，英偉達也親自下場，開源了首個基於 Blackwell 架構的優化方案——DeepSeek-R1-FP4。
<img src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/7c25e800-ff9f-402b-add1-482a3f8284b0.png?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="1022" height="968" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/7c25e800-ff9f-402b-add1-482a3f8284b0.png"/>
在新模型的加持下，B200 實現了高達 21,088 token 每秒的的推理吞吐量，相比於 H100 的 844 token 每秒，提升了 25 倍。
與此同時，每 token 的成本也實現了 20 倍的降低。
通過在 Blackwell 架構上應用 TensorRT DeepSeek 優化，英偉達讓具有 FP4 生產級精度的模型，在 MMLU 通用智能基準測試中達到了 FP8 模型性能的 99.8%。
<img src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/12326fc1-a988-45c8-adc9-d49e3040e03e.png?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="1024" height="558" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/12326fc1-a988-45c8-adc9-d49e3040e03e.png"/>
<h2>DeepSeek-R1 首次基於 Blackwell GPU 優化</h2>
目前，英偉達基於 FP4 優化的 DeepSeek-R1 檢查點現已在 Hugging Face 上開源。
<img src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/239a6414-e0cc-4868-95a9-0b4320845173.png?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="1024" height="274" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/239a6414-e0cc-4868-95a9-0b4320845173.png"/>
模型地址：https://huggingface.co/nvidia/DeepSeek-R1-FP4
後訓練量化
模型將 Transformer 模塊內的線性算子的權重和激活量化到了 FP4，適用於 TensorRT-LLM 推理。
這種優化將每個參數從 8 位減少到 4 位，從而讓磁盤空間和 GPU 顯存的需求減少了約 1.6 倍。
使用 TensorRT-LLM 部署
要使用 TensorRT-LLM LLM API 部署量化後的 FP4 權重文件，併為給定的提示生成文本響應，請參照以下示例代碼：
硬件要求：需要支持 TensorRT-LLM 的英偉達 GPU（如 B200），並且需要 8 個 GPU 來實現 tensor_parallel_size=8 的張量並行。
性能優化：代碼利用 FP4 量化、TensorRT 引擎和並行計算，旨在實現高效、低成本的推理，適合生產環境或高吞吐量應用。
<img src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/4cdd0507-f77c-4ea8-8dc9-783c7c5867fb.png?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="684" height="755" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/4cdd0507-f77c-4ea8-8dc9-783c7c5867fb.png"/>
對於此次優化的成果，網友表示驚歎。
「FP4 魔法讓 AI 未來依然敏鋭！」網友 Isha 評論道。
<img src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/d15ae77b-c345-40aa-9094-37391041223d.png?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="1024" height="292" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/d15ae77b-c345-40aa-9094-37391041223d.png"/>
網友 algorusty 則聲稱，有了這次的優化後，美國供應商能夠以每百萬 token 0.25 美元的價格提供 R1。
「還會有利潤。」
<img src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/6500994e-9e87-47ab-af97-f2e833a55764.png?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="1024" height="199" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/6500994e-9e87-47ab-af97-f2e833a55764.png"/>
網友 Phil 則將這次的優化與 DeepSeek 本週的開源 5 連發結合了起來。
「這展示了硬件和開源模型結合的可能性。」他表示。
<img src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/6642e288-815f-422d-84e0-89f7de163010.png?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="1024" height="394" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/6642e288-815f-422d-84e0-89f7de163010.png"/>
<h2>DeepSeek 全面開源</h2>
<section>如今 DeepSeek 持續 5 天的「開源周」已經進行到了第 3 天。</section>
週一，他們開源了 FlashMLA。這是 DeepSeek 專為英偉達 Hopper GPU 打造的高效 MLA 解碼內核，特別針對變長序列進行了優化，目前已正式投產使用。
週二開源了 DeepEP，這是一個專為混合專家系統（MoE）和專家並行（EP）設計的通信庫。
週三開源的是 DeepGEMM。這是一個支持稠密和 MoE 模型的 FP8 GEMM（通用矩陣乘法）計算庫，可為 V3/R1 的訓練和推理提供強大支持。
總的來説，不管是英偉達開源的 DeepSeek-R1-FP4，還是 DeepSeek 開源的三個倉庫，都是通過對英偉達 GPU 和集羣的優化，來推動 AI 模型的高效計算和部署。
本文來源：新智元，原文標題：《英偉達下場，首次優化 DeepSeek-R1！B200 性能狂飆 25 倍，碾壓 H100》<div>風險提示及免責條款</div>
 <div>
 市場有風險，投資需謹慎。本文不構成個人投資建議，也未考慮到個別用户特殊的投資目標、財務狀況或需要。用户應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資，責任自負。
 </div>

英偉達

英偉達推出 DeepSeek-R1-FP4 優化方案，B200 性能提升 25 倍，推理吞吐量達到 21,088 token 每秒，成本降低 20 倍。新模型在 MMLU 基準測試中表現出色，達到了 FP8 模型性能的 99.8%。該優化方案已在 Hugging Face 開源，適用於支持 TensorRT-LLM 的英偉達 GPU，旨在實現高效、低成本的推理。網友對此表示驚歎，認為 FP4 技術將推動 AI 未來的發展。

- 英偉達推出基於 Blackwell 架構的 DeepSeek-R1-FP4，推理性能提升 25 倍。  
- 每 token 成本降低 20 倍，適用於高吞吐量應用。  
- DeepSeek 開源周持續進行，推動 AI 模型高效計算。