DeepSeek 开源周观察-2:DeepSeek 上午开源,Nvidia 下午集成

华尔街见闻
2025.02.26 00:11
portai
我是 PortAI,我可以总结文章信息。

DeepSeek 在开源周第二天推出了 MoE EP 通信的实现,支持高效的全到全通信、NVLink 和 RDMA 的节点间支持、高吞吐量和低延迟的推理内核等功能。Nvidia 迅速将其集成到 Megatron-LLM,显示出 DeepSeek 对 Nvidia 生态的重大影响。Nvidia 内部将 DeepSeek 的支持视为重要项目,优先级高于 Llama。

今天是 DeepSeek 开源周第二弹,果然把众望所归的 MoE EP 通信的实现给开源了,支持以下 feature:

✅ Efficient and optimized all-to-all communication

✅ Both intranode and internode support with NVLink and RDMA

✅ High-throughput kernels for training and inference prefilling

✅ Low-latency kernels for inference decoding

✅ Native FP8 dispatch support

✅ Flexible GPU resource control for computation-communication overlapping

Quote 某位大佬的评论,写这个通讯库的同学能力是世界级的,不愧是清华超算队出身 + 在 nv 实习过,一般人想不出来:

  • 对同步机制的理解是大师级的

  • 非常理解最小化读写指令数量,尽可能使用 64/128bits 读写指令

  • 尽可能不使用 CPU 的网卡驱动

  • 使用极其偏门的 OPEN_SH_MEM 通讯库

  • 直接改了 NV 的 SM 核来做通信

  • 可能比很多 NV 的人都更懂 NV 底层

和我们昨天以及今天的分析一致,DeepSeek 的开源,尤其是 infra 开源,在短期是极大的加强了 NV 生态的护城河,NV 有种躺赢的感觉。比如,今天 DeepEP 上午开源,Nvidia 这边下午就集成到了 Megatron-LLM。据了解,老黄在 NV 内部把 DeepSeek 的支持重要性排到了 Llama 之前,成为了最重要的开源项目,内部的资源和流程也是一路绿灯。DeepSeek 本身也是基于 Nvidia 的 GPU 全面优化的,比如改写 SM 核来做通信,AMD 的 GPU 就不支持...

无独有偶,今天 Nvidia 也发布了 B200 的 DeepSeek R1 适配情况,飙升到了 21,088 Token/s。B200 8T 的带宽 +FP4,理论上直接就能比 H200 有 3.33x 的效果提升,这也和这张官方表的情况是类似的。相信后续随着 NV 的进一步优化,TPS 还能提升。比较有意思的是,NV 官方表示,FP4 的准确度只比 FP8 低了 0.2%,非常期待进一步的 benchmark。

不过,如果模型不能继续 scale up,看起来 DeepEP 的结果也很明确,稀疏 MoE 的通信 bottleneck 是 RDMA scale out 而不是 scale up,NVLink 的硬件壁垒是可能受到影响的。

今天还有一条新闻,路透社表示,DeepSeek R2 原本计划未来几个月发布,而公司现在希望尽快推出。

我们也分析过,NSA(Native Sparse Attention) 的发布,可以说就是为了进一步增强长文本和长 CoT 准备的,DeepSeek 的实验也表示,NSA 甚至比传统的 full attention,在长文本上的表现更好且更快!这也是为了 R2 和 V4,做了进一步的 infra level 的准备。

据我们了解,R1 其实是一个比较 “粗糙” 的工作,而参考从 o1 到 o3 的过程,通过进一步细化 CoT 和数据准备等等,是可以确定性的在下一个版本看到智能的飞跃的。DeepSeek R2 是有希望达到 o3 level 的水平的,在 coding 方面,也是有希望可以达到 claude 3.5 sonnet 的。参考下图,之前 o3 对比 o1 的能力,如果这样一个强大的模型能够进一步开源,相信对于整个下游应用和模型生态,都有巨大的推动作用。

非常期待 DeepSeek 下面 V4 和 R2 的工作。

风险提示及免责条款

市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。