<div id="readability-page-1">媒體風向變化太快，讓人目不暇接。早上還在誇 DeepSeek 成本低，性價比高，預訓練 Scaling Law 死了，不需要太多機器和 GPU 卡，性價比優先，英偉達休矣；中午 Grok 3 一出來，説是用了 10 萬張英偉達 H100 卡，效果力壓 OpenAI o3 mini 和 DeepSeek R1，就轉向説 Scaling Law 還成立，還需要大量的卡，英偉達股價有救了，還是要大力出奇跡…… 這兩個觀點明顯對立，有一真必有一假，那事實的真相到底是啥呢？我們來推一推。 <h2>預訓練階段的 Scaling Law 是否仍然成立</h2> 預訓練階段的 Scaling Law 成立嗎？當然是成立的，所謂 “Scaling Law 撞牆”，大家普遍遇到的問題是數據不夠了，沒有大量新數據，導致預訓練階段的 Scaling Law 走勢趨緩，注意是趨緩但不是停頓，預訓練階段的 Scaling Law 並沒到天花板。 按照 Chinchilla Scaling Law 推斷，即使沒有新數據，也並不意味着模型效果提不上去了，很簡單，只要增加基座模型尺寸，效果仍然會提高，只是從付出的算力和獲得的效果提升來説很不合算，性價比過低，這是為何大家轉到 RL Scaling Law 和 Test Time Scaling Law 的原因，是因為付出同樣的算力，在後面兩個階段大模型智商提升更明顯，就是性價比高。 目前可以提高模型效果的 Scaling 方法，按照性價比由高到低排序的話:Test time Scaling Law&gt; RL Scaling Law&gt;預訓練階段 Scaling Law（數據不夠了，只能推大模型尺寸），有性價比高的 Scaling，當然優先做這種，性價比低的 Scaling，只有在沒有性價比更高的情況下才會採用。這跟購物一個道理，有性價比高的當然不會去買性價比低的商品。 如果哪天 RL Scaling Law 和 Test Time Scaling Law 到了天花板，又沒有找到新的性價比更合算的 Scaling Law，也不是説模型效果就提不上去了，大家仍然可以迴歸預訓練階段的 Scaling Law，沒有新數據也沒關係，推大模型尺寸規模就可以，效果仍然會上升。但這基本是最後的選擇，沒辦法的辦法，只要有性價比高的方法就不會走這條路。 有人問了：那按照你的意思，囤那麼多 GPU 算力，其實對訓最好的模型也沒啥用？要是按照上面的理論，那確實是沒有太大必要，比如 DeepSeek 2000 卡也可以作出最好的模型不是。 但是卡多有個好處，就是能壓縮實驗新想法和訓練大模型基座的時間週期。比如你總得探索一些不同的算法、參數或數據配比的模型進行各種實驗，你有 10 個新想法，如果只有 2000 張卡，可能得跑 5 天才能得出結論，要是有幾萬張卡，可能 1 天就能得出結論，所以卡多對於探索效率是有極大幫助的。卡多創新多，這點肯定成立。 <h2>Grok 3 基座模型（對標 DeepSeek V3，非 R1 這種邏輯推理模型）</h2> 為何 Grok 3 作為通用基座模型，它的評測指標只有數學、科學和代碼數據集？沒有通用能力比如最常用的 MMLU 指標的對比，這是不太規範的對比模式。推斷可能 Grok 3 的通用能力相對 OpenAI 和 DeepSeek 的模型沒有大幅提升，所以不拿出來比？ 如果想要提升基座模型的數學、科學和代碼能力，無論從方法還是從成本角度來講，難度並不大，目前比較標準的做法是類似 DeepSeek V3 從 DeepSeek R1 蒸餾數學、代碼等邏輯題的長 COT 數據，即深度思考過程數據。 就是説把深度思考長 COT 數據引入基座的 Post-Training 階段、甚至前置到預訓練階段（所謂大模型 “左腳（DeepSeek 基座）踩右腳（DeepSeek R1）自我飛昇” 的模式），這樣就能大幅提升基座模型在數學和代碼方面相關的能力，也就是 Grok 3 宣傳具備的 “有思維鏈推理和自我糾錯機制”，評測指標看着會比較好看，而且蒸餾的數據總量也不會太大（幾百 B 級別應該夠了），成本很低，對算力要求不高。 OpenAI 很快會發布的非邏輯推理模型 GPT 4.5 ，大概也應是類似的思路，從 o3 模型蒸餾 COT 數據，用深度思考數據來提升 GPT 4.5 基座模型的智商，大模型 “左腳踩右腳自我飛昇” 大法，這會是之後基座模型提升能力的主要手段。 Grok 3 的算力消耗是 Grok 2 的 10 倍，如果遵照 Chinchilla Scaling Law，最佳做法是 Grok 3 的訓練數據量比 Grok 2 增加 3 倍，模型大小同時比 Grok 2 增加 3 倍（但是目前的趨勢是減小模型大小，增大數據量 [就是説 “小模型大數據” 的模式]，儘管這樣不滿足訓練最優原則，但因為模型尺寸小了，所以這種模型更適合在線推理服務，降低服務成本）。 如果像發佈會宣稱的，Grok 3 耗費算力是 Grok 2 的 10 倍消息為真的話，那有兩種可能。 一種是數據量增長極大，這樣只能是增加了大量多模態數據，比如數據量從 10T 增長到 30T（目前文本模型使用的數據量，最多到 18T 到 20T 之間，基本到頂，再多沒有了，要大幅增加只能加多模態數據，但是增加多模態數據對提升大模型智商幫助不大，所以這個增量按理説不應該太大），如果這樣推算，Grok3 的模型規模增長 3 倍左右。 第二種可能是訓練數據量比 20T 增加的不多，如果這樣可以推出 Grok 3 模型尺寸比 Grok 2 要大很多，至少 4 到 5 倍起步（若新增數據不多，那隻能靠增加模型尺寸來消耗新增算力）。不論是哪種可能，Grok 3 的模型大小肯定比 Grok 2 大了很多，而 Grok 2 模型本身可能就不小（Grok 2 發佈網頁評測效果超 Llama 3.1 405 B，所以無論數據還是模型大小，都不會太小，要是 Dense 模型， 70B 是最小的估計了），所以 Grok 3 的尺寸規模很可能不是一般的大（感覺在 200B 到 500B 之間）。 很明顯，Grok 3 仍然在採取推大基座模型尺寸的 “傳統” 做法，也就是上面 “Scaling Law” 部分分析的預訓練階段增大模型尺寸的方法來提升基座模型能力，上面分析過，這種做法是性價比很低的。比較時髦的做法是把訓練重心放在 RL Scaling 方面，性價比會高太多。但是為啥他要做這種賠本買賣呢？在後面會給出一個可能的解釋。 <h2>Grok 3 邏輯推理版本（深度思考版本，對標 DeepSeek R1）</h2> Grok 3 的深度思考版本，不説體驗，單從評測指標看，達到或者超過了 o3 mini，確實是目前效果最好的，或者説最好的之一沒有什麼問題。 説回上面提到的問題，為啥明知靠推大預訓練階段模型尺寸規模性價比低，Grok 3 還要用這種模式呢？很可能內在的原因在於（推斷無證據）：Post-Training 階段採取 RL Scaling，其效果可能跟基座模型的大小是有正相關關係的。 就是説，同樣的 RL 階段的算力消耗，如果基座模型尺寸更大，則 RL 階段的 Scaling 效果越好。只有這樣，才有在預訓練階段儘量把模型規模推大的必要性。而我們可以假設，Grok 3 之所以採取這種過於耗費算力，看着性價比不高的方式，是希望通過加大基座，把深度思考版本的能力明顯提起來。 貌似 DeepSeek R1 效果很好又開源，獲得一片好評，但大家想要實際用起來，會發現基座太大，部署難度和消耗資源太高，對下游應用不太友好。那為啥 DeepSeek 非得推這種對下游應用來説明顯過大的模型呢？（小點的蒸餾模型看着指標很好，但是實際應用效果貌似差不少），是否也是因為基座模型如果不夠大，深度思考模型效果就沒那麼好的原因？ 如果上述假設成立，那意味着：三個 Scaling Law（Pre-train、RL 、Test Time），從提高大模型智商的性價比來説，由高到低是：Test Time &gt; RL &gt; Pre-Train，這個是之前的結論。但如果上述假設成立，説明 Test Time Scaling 的天花板最低，它的天花板依賴於 RL 階段的 Scaling 能力，而 RL 階段 Scaling 天花板次低，它的天花板依賴於預訓練階段 Pre-Train 的 Scaling？ 如果這樣，如果有一天當 RL 和 Test Time 天花板到頂，意味着我們可以再啓動一輪，去推大基座模型的模型尺寸，RL 階段 Scaling 的天花板隨之升高，然後可以再去 Scale RL 和 Test Time，就進一步得到智商更高的大模型。如果這成立，那意味着 AGI 的解決方案已經完整了？其實不需要新的 Scaling Law 存在就夠？ 上述推論，是在一個前提成立的條件下推出來的，這個前提是：Grok 3 耗費這麼大算力推大模型規模，這是個深思熟慮或小規模實驗的結果，而不是僅僅受到之前老觀念（預訓練階段算力越高效果越好）影響下的決策。如果這個前提不成立，則上述推論不成立。總之，一切責任在馬斯克。 本文作者：張俊林，文章來源：騰訊科技，原文標題：《Grok 3 用 20 萬 GPU 幫 AI 界做了個實驗：Scaling Law 沒撞牆，但預訓練不一定》風險提示及免責條款 市場有風險，投資需謹慎。本文不構成個人投資建議，也未考慮到個別用户特殊的投資目標、財務狀況或需要。用户應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資，責任自負。</div>

特斯拉

Grok 3 使用 10 萬張英偉達 H100 卡進行實驗，顯示預訓練階段的 Scaling Law 仍然成立，儘管存在數據不足的問題。Scaling Law 並未到達天花板，增加模型尺寸仍能提升效果，但性價比低。當前有效的 Scaling 方法按性價比排序為：Test time Scaling Law、RL Scaling Law、預訓練階段 Scaling Law。

- 文章討論了 DeepSeek 和 Grok 3 的算力需求及其對 Scaling Law 的影響。  
- Grok 3 採用大模型尺寸推理，可能影響其性價比。  
- 預訓練階段的 Scaling Law 仍然有效，但需關注性價比。  

華爾街見聞