<div id="readability-page-1">路透今晚报道了 DeepSeek 可能在 5 月前发布 r2。之前 DeepSeek 研究员 Daya 在 2 月初已经说过：RL 还在早期，今年会看 “显著进步”（significant progress） 其实在 r1 论文中也提到过：由于目前 RL 训练数据还很少，R1 的下个版本会大幅提升。 <img src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/c1fc7ec0-661e-49cc-a36f-5d6655479341.jpeg?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="1080" height="237" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/c1fc7ec0-661e-49cc-a36f-5d6655479341.jpeg"/> 也就是 r1 论文中的下图，以及论文所述：随着 RL 数据的增加，模型不仅解决复杂推理任务的能力持续稳定提升，且会自然涌现出一些复杂行为能力，比如 “反思”、“探索不同方法”。这些能力不是人类设计，而是随着模型在 RL 环境中训练，自然涌现的。 <img src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/b48b5682-37a0-4f16-9bf9-bf98518289f9.jpeg?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="875" height="571" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/b48b5682-37a0-4f16-9bf9-bf98518289f9.jpeg"/>粗浅的理解，现在不需要算法上的巨大创新，按照目前路线 + 更多算力 +DS 如此强的 infra 能力，基于目前的 V3 基座模型，依然可以取得 r2/r3。当看到 RL 提升边际放缓，再基于新的基座 V4，继续做 RL，进一步推进推理模型提升。也就是下面这张图：（左脚踩右脚示意图） <img src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/d9c84650-4881-4c57-9a01-159e03a4118f.jpeg?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="1080" height="837" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/d9c84650-4881-4c57-9a01-159e03a4118f.jpeg"/> 而参考 OpenAI 的路线图，o3 已经决定不发布完整模型，GPT-4.5 也成了最后一个独立发布的基座模型，意味着 GPT-5（混合模型）开始，越来越黑盒。说白了，以后无论是基座模型还是推理模型本身，都是 “原料” 而不是 “最终产品”，CloseAI 和 Anthropic 一定会雪藏。 <img src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/70d272d6-026a-4b9b-b394-668219570615.jpeg?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="1080" height="697" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/70d272d6-026a-4b9b-b394-668219570615.jpeg"/> 但 DeepSeek 要做的，就是在别人继续闭源的时候，继续开源。r2 应该对标的是 o3 完整版，而 V4 至少应该对标 GPT-4.5，基于 V4+RL 的模型，应该对标是未来的所谓 “GPT-5”。因此合理预期应该是 V4 可能会加入多模态能力，但 r 系列依然是推理模型。且这个过程中，所有的 “原料” 全部开源，不仅原料开源，按照这次代码的基调，连制造原材料的 “配方” 都直接开源。 这里面其实没有什么 DeepSeek 不知道的秘密，甚至在 infra 层面远超北美很多模型大厂。今天我们在星球讨论的：DeepSeek 甚至可能比英伟达更懂如何使用 GPU。而所谓 Research 上的创新，OpenAI o 系列的灵感也来自于早已发表的 “开源” paper，叠加自己的算力优势和工程探索实现。说到底没人全靠自己闭门造车，都受益于全世界 “开源” 研究或实践的喂养。 因此说回来，相比于 r2，大家反而应该更期待 V4，因为这打开了推理模型另一个 level 天花板，开辟的是另一条全新跑道。r2 是时间表上确定的事情，而 V4 会是一个惊喜。这都会在今年发生。 信息平权，原文标题：《如何预期 DeepSeek R2》风险提示及免责条款 市场有风险，投资需谨慎。本文不构成个人投资建议，也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。</div>

深度求索

英伟达

路透社报道 DeepSeek 可能在 5 月前发布 R2 版本。研究员 Daya 提到，RL 仍在早期阶段，预计今年会有显著进步。R1 论文指出，随着 RL 数据增加，模型的推理能力将提升，并自然涌现复杂行为。DeepSeek 计划在开源的基础上，继续推进模型的开发，R2 将对标 OpenAI 的完整模型，而 V4 可能加入多模态能力。

- DeepSeek 预计在 5 月前发布 r2，研究员 Daya 提到 RL 仍在早期阶段。  
- r1 论文指出，随着 RL 数据增加，模型能力将显著提升。  
- V4 可能加入多模态能力，r 系列仍为推理模型，所有原料将开源。