<div id="readability-page-1">今天是 DeepSeek 开源周第二弹，果然把众望所归的 MoE EP 通信的实现给开源了，支持以下 feature： ✅ Efficient and optimized all-to-all communication ✅ Both intranode and internode support with NVLink and RDMA ✅ High-throughput kernels for training and inference prefilling ✅ Low-latency kernels for inference decoding ✅ Native FP8 dispatch support ✅ Flexible GPU resource control for computation-communication overlapping Quote 某位大佬的评论，写这个通讯库的同学能力是世界级的，不愧是清华超算队出身 + 在 nv 实习过，一般人想不出来： <ul> <li> 对同步机制的理解是大师级的 </li> <li> 非常理解最小化读写指令数量，尽可能使用 64/128bits 读写指令 </li> <li> 尽可能不使用 CPU 的网卡驱动 </li> <li> 使用极其偏门的 OPEN_SH_MEM 通讯库 </li> <li> 直接改了 NV 的 SM 核来做通信 </li> <li> 可能比很多 NV 的人都更懂 NV 底层 </li> </ul> 和我们昨天以及今天的分析一致，DeepSeek 的开源，尤其是 infra 开源，在短期是极大的加强了 NV 生态的护城河，NV 有种躺赢的感觉。比如，今天 DeepEP 上午开源，Nvidia 这边下午就集成到了 Megatron-LLM。据了解，老黄在 NV 内部把 DeepSeek 的支持重要性排到了 Llama 之前，成为了最重要的开源项目，内部的资源和流程也是一路绿灯。DeepSeek 本身也是基于 Nvidia 的 GPU 全面优化的，比如改写 SM 核来做通信，AMD 的 GPU 就不支持... <img src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/b1c3ed8b-c1be-4ce0-890c-e915f26fd45f.png?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="1024" height="288" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/b1c3ed8b-c1be-4ce0-890c-e915f26fd45f.png"/> 无独有偶，今天 Nvidia 也发布了 B200 的 DeepSeek R1 适配情况，飙升到了 21,088 Token/s。B200 8T 的带宽 +FP4，理论上直接就能比 H200 有 3.33x 的效果提升，这也和这张官方表的情况是类似的。相信后续随着 NV 的进一步优化，TPS 还能提升。比较有意思的是，NV 官方表示，FP4 的准确度只比 FP8 低了 0.2%，非常期待进一步的 benchmark。 <img src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/c7a9e745-3197-40e0-9e99-426bf3e7ab32.png?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="1024" height="559" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/c7a9e745-3197-40e0-9e99-426bf3e7ab32.png"/> 不过，如果模型不能继续 scale up，看起来 DeepEP 的结果也很明确，稀疏 MoE 的通信 bottleneck 是 RDMA scale out 而不是 scale up，NVLink 的硬件壁垒是可能受到影响的。 <img src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/adcb4353-9b39-47ca-9912-063a205947fb.png?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="1024" height="401" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/adcb4353-9b39-47ca-9912-063a205947fb.png"/> 今天还有一条新闻，路透社表示，DeepSeek R2 原本计划未来几个月发布，而公司现在希望尽快推出。 我们也分析过，NSA(Native Sparse Attention) 的发布，可以说就是为了进一步增强长文本和长 CoT 准备的，DeepSeek 的实验也表示，NSA 甚至比传统的 full attention，在长文本上的表现更好且更快！这也是为了 R2 和 V4，做了进一步的 infra level 的准备。 <img src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/c5220eee-f6eb-4a71-8727-43b89ccee108.png?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="874" height="476" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/c5220eee-f6eb-4a71-8727-43b89ccee108.png"/> 据我们了解，R1 其实是一个比较 “粗糙” 的工作，而参考从 o1 到 o3 的过程，通过进一步细化 CoT 和数据准备等等，是可以确定性的在下一个版本看到智能的飞跃的。DeepSeek R2 是有希望达到 o3 level 的水平的，在 coding 方面，也是有希望可以达到 claude 3.5 sonnet 的。参考下图，之前 o3 对比 o1 的能力，如果这样一个强大的模型能够进一步开源，相信对于整个下游应用和模型生态，都有巨大的推动作用。 <img src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/52badaac-e089-4821-af3a-18737aef4788.png?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="520" height="481" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/52badaac-e089-4821-af3a-18737aef4788.png"/> <img src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/c11daa0a-c7cb-4b45-88be-38877bccb8d8.png?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="1024" height="457" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/c11daa0a-c7cb-4b45-88be-38877bccb8d8.png"/> 非常期待 DeepSeek 下面 V4 和 R2 的工作。 <img src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/218c6e32-8e7b-4ed7-98c9-86ed0e9e9c2d.png?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="780" height="709" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/218c6e32-8e7b-4ed7-98c9-86ed0e9e9c2d.png"/> 风险提示及免责条款 市场有风险，投资需谨慎。本文不构成个人投资建议，也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。</div>

深度求索

DeepSeek 在开源周第二天推出了 MoE EP 通信的实现，支持高效的全到全通信、NVLink 和 RDMA 的节点间支持、高吞吐量和低延迟的推理内核等功能。Nvidia 迅速将其集成到 Megatron-LLM，显示出 DeepSeek 对 Nvidia 生态的重大影响。Nvidia 内部将 DeepSeek 的支持视为重要项目，优先级高于 Llama。

- DeepSeek 开源 MoE EP 通信，支持高效的全到全通信。  
- Nvidia 内部重视 DeepSeek，集成至 Megatron-LLM。  
- DeepSeek R2 计划加速发布，提升长文本处理能力。  

DeepSeek 开源周观察-2：DeepSeek 上午开源，Nvidia 下午集成