<div id="readability-page-1">首先训练同一代模型所需算力每隔 N 个月就是指数级降低，这里面有算法进步、算力本身通缩、数据蒸馏等等因素，这也是为什么说“模型后发更省力”。援引下星球内一则评论：“就好像看过几遍答案，水平很一般的学生也能在 1 小时内把高考数学卷整出满分”。 DeepSeek v3 因为是后发，完全可以避开前人走的坑，用更高效方式避坑，也就是 “站在巨人的肩膀上”。因此幻方在 GPT4o 发布 7 个月后，用 1/10 算力实现几乎同等水平，是合理的，甚至可以作为未来对同代模型训练成本下降速度的预测。但这里面依然有几个概念上的误解。 首先是 “训练” 范围上的混淆。幻方的论文明确说明了：“上述成本仅包括 DeepSeek-V3 的正式训练，不包括与架构、算法、数据相关的前期研究、消融实验的成本。” 也就是星球内一位算法工程师说的 “有点断章取义，幻方在训这个模型之前，用了他们自己的 r1 模型（对标 openai o1）来生成数据，这个部分的反复尝试要不要算在成本里呢？单就在训练上做降本增效这件事，这不代表需求会下降，只代表大厂可以用性价比更高的方式去做模型极限能力的探索。应用端只要有增长的逻辑，推理的需求依然是值得期待的。” 随着 Ilya 说的 “公开互联网数据穷尽”，未来合成数据是突破数据天花板的重要来源，且天花板理论上足够高。相当于过去的预训练范式从卷参数、卷数据总量，到了卷数据质量，卷新的 Scaling 因子（RL、测试时间计算等），而算力只不过换了个地方，继续被其他训练环节榨干。 从目前各大实验室的实际情况看也是，OpenAI、Anthropic 至今仍处于缺卡状态，相信幻方也是。看训练算力是否下降，不应该只看某代模型某次训练这种切面，而应该从“总量”以及 “自上而下”去看，这些实验室的训练算力总需求是下降了吗？反而一直在上升。预训练的经济效益下降，那就把卡挪给 RL post train，发现模型实现同等提升所需卡减少了，那就减少投入了吗？不会，真实逻辑应该是：榨干同等算力去攫取 10 倍收益。就比如 o1 的训练成本远超 GPT-4，而 o3 的训练成本大概率远超 o1。从前沿探索角度看，训练所需算力只会越来越多。应用生态越繁荣，只会让训练投入的支付能力更强；而算力通缩，只会让同等投入买到更多训练 Flops。 就好比幻方这次发布的模型，依然是 LLM 路线下，将 MoE 压榨到了极致。但相信幻方自己的推理模型 r1（对标 o1）也在探索 r2/r3，这显然需要更多算力。而 r2/r3 训完，又被用来消耗大量算力为 deepseek v4 合成数据。发现没，pre-train scaling、RL scaling、test-time compute scaling 三条线甚至还有正反馈。因此，只会在可获得最大资源的前提下，用最高效的算法/工程手段，压榨出最大的模型能力提升。而不会因为效率提升而减少投入，个人认为这是个伪逻辑。 对于推理，不必多说了，一定是上升。引用下星球内洪博的评论：DeepSeek-V3 的出现（可能还包括轻量版 V3-Lite），将支持私有部署和自主微调，为下游应用提供远大于闭源模型时代的发展空间。未来一两年，大概率将见证更丰富的推理芯片产品、更繁荣的 LLM 应用生态。 文章来源：信息平权，原文标题：《训练算力真的下降了吗？》风险提示及免责条款 市场有风险，投资需谨慎。本文不构成个人投资建议，也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。</div>

OpenAI

英伟达

DeepSeek v3 的训练算力需求显著降低，得益于算法进步和数据蒸馏等因素，使得后发模型训练更为高效。尽管幻方在 GPT4o 发布后用 1/10 的算力实现相似水平，但训练成本的计算需考虑前期研究的投入。未来合成数据将是突破数据限制的重要来源，整体训练算力需求仍在上升，OpenAI 和 Anthropic 等实验室也面临算力不足的问题。

- 训练同一代模型所需算力每隔 N 个月指数级降低。  
- 幻方的 DeepSeek v3 用 1/10 算力实现接近 GPT4o 的水平。  
- 未来合成数据将是突破数据天花板的重要来源。  

DeepSeek 火出圈，英伟达完了吗？