
Grok 3 用 20 萬 GPU 幫 AI 界做了個實驗:Scaling Law 沒撞牆,但預訓練不一定

我是 PortAI,我可以總結文章信息。
Grok 3 使用 10 萬張英偉達 H100 卡進行實驗,顯示預訓練階段的 Scaling Law 仍然成立,儘管存在數據不足的問題。Scaling Law 並未到達天花板,增加模型尺寸仍能提升效果,但性價比低。當前有效的 Scaling 方法按性價比排序為:Test time Scaling Law、RL Scaling Law、預訓練階段 Scaling Law。
登錄即免費解鎖0字全文
因資訊版權原因,登入長橋帳戶後方可瀏覽相關內容
多謝您對正版資訊的支持與理解

