当 FP4 的魔法与 Blackwell 的强大算力相遇，会碰撞出怎样的火花？
答案是：推理性能暴涨 25 倍，成本狂降 20 倍！
随着 DeepSeek-R1 本地化部署的爆火，英伟达也亲自下场，开源了首个基于 Blackwell 架构的优化方案——DeepSeek-R1-FP4。
<img src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/7c25e800-ff9f-402b-add1-482a3f8284b0.png?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="1022" height="968" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/7c25e800-ff9f-402b-add1-482a3f8284b0.png"/>
在新模型的加持下，B200 实现了高达 21,088 token 每秒的的推理吞吐量，相比于 H100 的 844 token 每秒，提升了 25 倍。
与此同时，每 token 的成本也实现了 20 倍的降低。
通过在 Blackwell 架构上应用 TensorRT DeepSeek 优化，英伟达让具有 FP4 生产级精度的模型，在 MMLU 通用智能基准测试中达到了 FP8 模型性能的 99.8%。
<img src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/12326fc1-a988-45c8-adc9-d49e3040e03e.png?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="1024" height="558" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/12326fc1-a988-45c8-adc9-d49e3040e03e.png"/>
<h2>DeepSeek-R1 首次基于 Blackwell GPU 优化</h2>
目前，英伟达基于 FP4 优化的 DeepSeek-R1 检查点现已在 Hugging Face 上开源。
<img src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/239a6414-e0cc-4868-95a9-0b4320845173.png?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="1024" height="274" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/239a6414-e0cc-4868-95a9-0b4320845173.png"/>
模型地址：https://huggingface.co/nvidia/DeepSeek-R1-FP4
后训练量化
模型将 Transformer 模块内的线性算子的权重和激活量化到了 FP4，适用于 TensorRT-LLM 推理。
这种优化将每个参数从 8 位减少到 4 位，从而让磁盘空间和 GPU 显存的需求减少了约 1.6 倍。
使用 TensorRT-LLM 部署
要使用 TensorRT-LLM LLM API 部署量化后的 FP4 权重文件，并为给定的提示生成文本响应，请参照以下示例代码：
硬件要求：需要支持 TensorRT-LLM 的英伟达 GPU（如 B200），并且需要 8 个 GPU 来实现 tensor_parallel_size=8 的张量并行。
性能优化：代码利用 FP4 量化、TensorRT 引擎和并行计算，旨在实现高效、低成本的推理，适合生产环境或高吞吐量应用。
<img src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/4cdd0507-f77c-4ea8-8dc9-783c7c5867fb.png?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="684" height="755" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/4cdd0507-f77c-4ea8-8dc9-783c7c5867fb.png"/>
对于此次优化的成果，网友表示惊叹。
「FP4 魔法让 AI 未来依然敏锐！」网友 Isha 评论道。
<img src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/d15ae77b-c345-40aa-9094-37391041223d.png?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="1024" height="292" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/d15ae77b-c345-40aa-9094-37391041223d.png"/>
网友 algorusty 则声称，有了这次的优化后，美国供应商能够以每百万 token 0.25 美元的价格提供 R1。
「还会有利润。」
<img src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/6500994e-9e87-47ab-af97-f2e833a55764.png?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="1024" height="199" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/6500994e-9e87-47ab-af97-f2e833a55764.png"/>
网友 Phil 则将这次的优化与 DeepSeek 本周的开源 5 连发结合了起来。
「这展示了硬件和开源模型结合的可能性。」他表示。
<img src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/6642e288-815f-422d-84e0-89f7de163010.png?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="1024" height="394" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/6642e288-815f-422d-84e0-89f7de163010.png"/>
<h2>DeepSeek 全面开源</h2>
<section>如今 DeepSeek 持续 5 天的「开源周」已经进行到了第 3 天。</section>
周一，他们开源了 FlashMLA。这是 DeepSeek 专为英伟达 Hopper GPU 打造的高效 MLA 解码内核，特别针对变长序列进行了优化，目前已正式投产使用。
周二开源了 DeepEP，这是一个专为混合专家系统（MoE）和专家并行（EP）设计的通信库。
周三开源的是 DeepGEMM。这是一个支持稠密和 MoE 模型的 FP8 GEMM（通用矩阵乘法）计算库，可为 V3/R1 的训练和推理提供强大支持。
总的来说，不管是英伟达开源的 DeepSeek-R1-FP4，还是 DeepSeek 开源的三个仓库，都是通过对英伟达 GPU 和集群的优化，来推动 AI 模型的高效计算和部署。
本文来源：新智元，原文标题：《英伟达下场，首次优化 DeepSeek-R1！B200 性能狂飙 25 倍，碾压 H100》<div>风险提示及免责条款</div>
 <div>
 市场有风险，投资需谨慎。本文不构成个人投资建议，也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。
 </div>

英伟达

英伟达推出 DeepSeek-R1-FP4 优化方案，B200 性能提升 25 倍，推理吞吐量达到 21,088 token 每秒，成本降低 20 倍。新模型在 MMLU 基准测试中表现出色，达到了 FP8 模型性能的 99.8%。该优化方案已在 Hugging Face 开源，适用于支持 TensorRT-LLM 的英伟达 GPU，旨在实现高效、低成本的推理。网友对此表示惊叹，认为 FP4 技术将推动 AI 未来的发展。

- 英伟达推出基于 Blackwell 架构的 DeepSeek-R1-FP4，推理性能提升 25 倍。  
- 每 token 成本降低 20 倍，适用于高吞吐量应用。  
- DeepSeek 开源周持续进行，推动 AI 模型高效计算。