英偉達下場,首次優化 DeepSeek-R1!B200 性能狂飆 25 倍,碾壓 H100

華爾街見聞
2025.02.26 15:07
portai
我是 PortAI,我可以總結文章信息。

英偉達推出 DeepSeek-R1-FP4 優化方案,B200 性能提升 25 倍,推理吞吐量達到 21,088 token 每秒,成本降低 20 倍。新模型在 MMLU 基準測試中表現出色,達到了 FP8 模型性能的 99.8%。該優化方案已在 Hugging Face 開源,適用於支持 TensorRT-LLM 的英偉達 GPU,旨在實現高效、低成本的推理。網友對此表示驚歎,認為 FP4 技術將推動 AI 未來的發展。