
如何预期 DeepSeek R2

路透社报道 DeepSeek 可能在 5 月前发布 R2 版本。研究员 Daya 提到,RL 仍在早期阶段,预计今年会有显著进步。R1 论文指出,随着 RL 数据增加,模型的推理能力将提升,并自然涌现复杂行为。DeepSeek 计划在开源的基础上,继续推进模型的开发,R2 将对标 OpenAI 的完整模型,而 V4 可能加入多模态能力。
路透今晚报道了 DeepSeek 可能在 5 月前发布 r2。之前 DeepSeek 研究员 Daya 在 2 月初已经说过:RL 还在早期,今年会看 “显著进步”(significant progress)
其实在 r1 论文中也提到过:由于目前 RL 训练数据还很少,R1 的下个版本会大幅提升。

也就是 r1 论文中的下图,以及论文所述:随着 RL 数据的增加,模型不仅解决复杂推理任务的能力持续稳定提升,且会自然涌现出一些复杂行为能力,比如 “反思”、“探索不同方法”。这些能力不是人类设计,而是随着模型在 RL 环境中训练,自然涌现的。
粗浅的理解,现在不需要算法上的巨大创新,按照目前路线 + 更多算力 +DS 如此强的 infra 能力,基于目前的 V3 基座模型,依然可以取得 r2/r3。当看到 RL 提升边际放缓,再基于新的基座 V4,继续做 RL,进一步推进推理模型提升。也就是下面这张图:(左脚踩右脚示意图)

而参考 OpenAI 的路线图,o3 已经决定不发布完整模型,GPT-4.5 也成了最后一个独立发布的基座模型,意味着 GPT-5(混合模型)开始,越来越黑盒。说白了,以后无论是基座模型还是推理模型本身,都是 “原料” 而不是 “最终产品”,CloseAI 和 Anthropic 一定会雪藏。

但 DeepSeek 要做的,就是在别人继续闭源的时候,继续开源。r2 应该对标的是 o3 完整版,而 V4 至少应该对标 GPT-4.5,基于 V4+RL 的模型,应该对标是未来的所谓 “GPT-5”。因此合理预期应该是 V4 可能会加入多模态能力,但 r 系列依然是推理模型。且这个过程中,所有的 “原料” 全部开源,不仅原料开源,按照这次代码的基调,连制造原材料的 “配方” 都直接开源。
这里面其实没有什么 DeepSeek 不知道的秘密,甚至在 infra 层面远超北美很多模型大厂。今天我们在星球讨论的:DeepSeek 甚至可能比英伟达更懂如何使用 GPU。而所谓 Research 上的创新,OpenAI o 系列的灵感也来自于早已发表的 “开源” paper,叠加自己的算力优势和工程探索实现。说到底没人全靠自己闭门造车,都受益于全世界 “开源” 研究或实践的喂养。
因此说回来,相比于 r2,大家反而应该更期待 V4,因为这打开了推理模型另一个 level 天花板,开辟的是另一条全新跑道。r2 是时间表上确定的事情,而 V4 会是一个惊喜。这都会在今年发生。
信息平权,原文标题:《如何预期 DeepSeek R2》
风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。

