英伟达下场,首次优化 DeepSeek-R1!B200 性能狂飙 25 倍,碾压 H100

华尔街见闻
2025.02.26 15:07
portai
我是 PortAI,我可以总结文章信息。

英伟达推出 DeepSeek-R1-FP4 优化方案,B200 性能提升 25 倍,推理吞吐量达到 21,088 token 每秒,成本降低 20 倍。新模型在 MMLU 基准测试中表现出色,达到了 FP8 模型性能的 99.8%。该优化方案已在 Hugging Face 开源,适用于支持 TensorRT-LLM 的英伟达 GPU,旨在实现高效、低成本的推理。网友对此表示惊叹,认为 FP4 技术将推动 AI 未来的发展。