<div id="readability-page-1">媒体风向变化太快，让人目不暇接。早上还在夸 DeepSeek 成本低，性价比高，预训练 Scaling Law 死了，不需要太多机器和 GPU 卡，性价比优先，英伟达休矣；中午 Grok 3 一出来，说是用了 10 万张英伟达 H100 卡，效果力压 OpenAI o3 mini 和 DeepSeek R1，就转向说 Scaling Law 还成立，还需要大量的卡，英伟达股价有救了，还是要大力出奇迹…… 这两个观点明显对立，有一真必有一假，那事实的真相到底是啥呢？我们来推一推。 <h2>预训练阶段的 Scaling Law 是否仍然成立</h2> 预训练阶段的 Scaling Law 成立吗？当然是成立的，所谓 “Scaling Law 撞墙”，大家普遍遇到的问题是数据不够了，没有大量新数据，导致预训练阶段的 Scaling Law 走势趋缓，注意是趋缓但不是停顿，预训练阶段的 Scaling Law 并没到天花板。 按照 Chinchilla Scaling Law 推断，即使没有新数据，也并不意味着模型效果提不上去了，很简单，只要增加基座模型尺寸，效果仍然会提高，只是从付出的算力和获得的效果提升来说很不合算，性价比过低，这是为何大家转到 RL Scaling Law 和 Test Time Scaling Law 的原因，是因为付出同样的算力，在后面两个阶段大模型智商提升更明显，就是性价比高。 目前可以提高模型效果的 Scaling 方法，按照性价比由高到低排序的话:Test time Scaling Law&gt; RL Scaling Law&gt;预训练阶段 Scaling Law（数据不够了，只能推大模型尺寸），有性价比高的 Scaling，当然优先做这种，性价比低的 Scaling，只有在没有性价比更高的情况下才会采用。这跟购物一个道理，有性价比高的当然不会去买性价比低的商品。 如果哪天 RL Scaling Law 和 Test Time Scaling Law 到了天花板，又没有找到新的性价比更合算的 Scaling Law，也不是说模型效果就提不上去了，大家仍然可以回归预训练阶段的 Scaling Law，没有新数据也没关系，推大模型尺寸规模就可以，效果仍然会上升。但这基本是最后的选择，没办法的办法，只要有性价比高的方法就不会走这条路。 有人问了：那按照你的意思，囤那么多 GPU 算力，其实对训最好的模型也没啥用？要是按照上面的理论，那确实是没有太大必要，比如 DeepSeek 2000 卡也可以作出最好的模型不是。 但是卡多有个好处，就是能压缩实验新想法和训练大模型基座的时间周期。比如你总得探索一些不同的算法、参数或数据配比的模型进行各种实验，你有 10 个新想法，如果只有 2000 张卡，可能得跑 5 天才能得出结论，要是有几万张卡，可能 1 天就能得出结论，所以卡多对于探索效率是有极大帮助的。卡多创新多，这点肯定成立。 <h2>Grok 3 基座模型（对标 DeepSeek V3，非 R1 这种逻辑推理模型）</h2> 为何 Grok 3 作为通用基座模型，它的评测指标只有数学、科学和代码数据集？没有通用能力比如最常用的 MMLU 指标的对比，这是不太规范的对比模式。推断可能 Grok 3 的通用能力相对 OpenAI 和 DeepSeek 的模型没有大幅提升，所以不拿出来比？ 如果想要提升基座模型的数学、科学和代码能力，无论从方法还是从成本角度来讲，难度并不大，目前比较标准的做法是类似 DeepSeek V3 从 DeepSeek R1 蒸馏数学、代码等逻辑题的长 COT 数据，即深度思考过程数据。 就是说把深度思考长 COT 数据引入基座的 Post-Training 阶段、甚至前置到预训练阶段（所谓大模型 “左脚（DeepSeek 基座）踩右脚（DeepSeek R1）自我飞升” 的模式），这样就能大幅提升基座模型在数学和代码方面相关的能力，也就是 Grok 3 宣传具备的 “有思维链推理和自我纠错机制”，评测指标看着会比较好看，而且蒸馏的数据总量也不会太大（几百 B 级别应该够了），成本很低，对算力要求不高。 OpenAI 很快会发布的非逻辑推理模型 GPT 4.5 ，大概也应是类似的思路，从 o3 模型蒸馏 COT 数据，用深度思考数据来提升 GPT 4.5 基座模型的智商，大模型 “左脚踩右脚自我飞升” 大法，这会是之后基座模型提升能力的主要手段。 Grok 3 的算力消耗是 Grok 2 的 10 倍，如果遵照 Chinchilla Scaling Law，最佳做法是 Grok 3 的训练数据量比 Grok 2 增加 3 倍，模型大小同时比 Grok 2 增加 3 倍（但是目前的趋势是减小模型大小，增大数据量 [就是说 “小模型大数据” 的模式]，尽管这样不满足训练最优原则，但因为模型尺寸小了，所以这种模型更适合在线推理服务，降低服务成本）。 如果像发布会宣称的，Grok 3 耗费算力是 Grok 2 的 10 倍消息为真的话，那有两种可能。 一种是数据量增长极大，这样只能是增加了大量多模态数据，比如数据量从 10T 增长到 30T（目前文本模型使用的数据量，最多到 18T 到 20T 之间，基本到顶，再多没有了，要大幅增加只能加多模态数据，但是增加多模态数据对提升大模型智商帮助不大，所以这个增量按理说不应该太大），如果这样推算，Grok3 的模型规模增长 3 倍左右。 第二种可能是训练数据量比 20T 增加的不多，如果这样可以推出 Grok 3 模型尺寸比 Grok 2 要大很多，至少 4 到 5 倍起步（若新增数据不多，那只能靠增加模型尺寸来消耗新增算力）。不论是哪种可能，Grok 3 的模型大小肯定比 Grok 2 大了很多，而 Grok 2 模型本身可能就不小（Grok 2 发布网页评测效果超 Llama 3.1 405 B，所以无论数据还是模型大小，都不会太小，要是 Dense 模型， 70B 是最小的估计了），所以 Grok 3 的尺寸规模很可能不是一般的大（感觉在 200B 到 500B 之间）。 很明显，Grok 3 仍然在采取推大基座模型尺寸的 “传统” 做法，也就是上面 “Scaling Law” 部分分析的预训练阶段增大模型尺寸的方法来提升基座模型能力，上面分析过，这种做法是性价比很低的。比较时髦的做法是把训练重心放在 RL Scaling 方面，性价比会高太多。但是为啥他要做这种赔本买卖呢？在后面会给出一个可能的解释。 <h2>Grok 3 逻辑推理版本（深度思考版本，对标 DeepSeek R1）</h2> Grok 3 的深度思考版本，不说体验，单从评测指标看，达到或者超过了 o3 mini，确实是目前效果最好的，或者说最好的之一没有什么问题。 说回上面提到的问题，为啥明知靠推大预训练阶段模型尺寸规模性价比低，Grok 3 还要用这种模式呢？很可能内在的原因在于（推断无证据）：Post-Training 阶段采取 RL Scaling，其效果可能跟基座模型的大小是有正相关关系的。 就是说，同样的 RL 阶段的算力消耗，如果基座模型尺寸更大，则 RL 阶段的 Scaling 效果越好。只有这样，才有在预训练阶段尽量把模型规模推大的必要性。而我们可以假设，Grok 3 之所以采取这种过于耗费算力，看着性价比不高的方式，是希望通过加大基座，把深度思考版本的能力明显提起来。 貌似 DeepSeek R1 效果很好又开源，获得一片好评，但大家想要实际用起来，会发现基座太大，部署难度和消耗资源太高，对下游应用不太友好。那为啥 DeepSeek 非得推这种对下游应用来说明显过大的模型呢？（小点的蒸馏模型看着指标很好，但是实际应用效果貌似差不少），是否也是因为基座模型如果不够大，深度思考模型效果就没那么好的原因？ 如果上述假设成立，那意味着：三个 Scaling Law（Pre-train、RL 、Test Time），从提高大模型智商的性价比来说，由高到低是：Test Time &gt; RL &gt; Pre-Train，这个是之前的结论。但如果上述假设成立，说明 Test Time Scaling 的天花板最低，它的天花板依赖于 RL 阶段的 Scaling 能力，而 RL 阶段 Scaling 天花板次低，它的天花板依赖于预训练阶段 Pre-Train 的 Scaling？ 如果这样，如果有一天当 RL 和 Test Time 天花板到顶，意味着我们可以再启动一轮，去推大基座模型的模型尺寸，RL 阶段 Scaling 的天花板随之升高，然后可以再去 Scale RL 和 Test Time，就进一步得到智商更高的大模型。如果这成立，那意味着 AGI 的解决方案已经完整了？其实不需要新的 Scaling Law 存在就够？ 上述推论，是在一个前提成立的条件下推出来的，这个前提是：Grok 3 耗费这么大算力推大模型规模，这是个深思熟虑或小规模实验的结果，而不是仅仅受到之前老观念（预训练阶段算力越高效果越好）影响下的决策。如果这个前提不成立，则上述推论不成立。总之，一切责任在马斯克。 本文作者：张俊林，文章来源：腾讯科技，原文标题：《Grok 3 用 20 万 GPU 帮 AI 界做了个实验：Scaling Law 没撞墙，但预训练不一定》风险提示及免责条款 市场有风险，投资需谨慎。本文不构成个人投资建议，也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。</div>

特斯拉

Grok 3 使用 10 万张英伟达 H100 卡进行实验，显示预训练阶段的 Scaling Law 仍然成立，尽管存在数据不足的问题。Scaling Law 并未到达天花板，增加模型尺寸仍能提升效果，但性价比低。当前有效的 Scaling 方法按性价比排序为：Test time Scaling Law、RL Scaling Law、预训练阶段 Scaling Law。

- 文章讨论了 DeepSeek 和 Grok 3 的算力需求及其对 Scaling Law 的影响。  
- Grok 3 采用大模型尺寸推理，可能影响其性价比。  
- 预训练阶段的 Scaling Law 仍然有效，但需关注性价比。  

华尔街见闻