
英伟达下场,首次优化 DeepSeek-R1!B200 性能狂飙 25 倍,碾压 H100

我是 PortAI,我可以总结文章信息。
英伟达推出 DeepSeek-R1-FP4 优化方案,B200 性能提升 25 倍,推理吞吐量达到 21,088 token 每秒,成本降低 20 倍。新模型在 MMLU 基准测试中表现出色,达到了 FP8 模型性能的 99.8%。该优化方案已在 Hugging Face 开源,适用于支持 TensorRT-LLM 的英伟达 GPU,旨在实现高效、低成本的推理。网友对此表示惊叹,认为 FP4 技术将推动 AI 未来的发展。
登录即免费解锁0字全文
因资讯版权原因,登录长桥账户后方可浏览相关内容
感谢您对正版资讯的理解与支持

