Grok 3 用 20 萬 GPU 幫 AI 界做了個實驗:Scaling Law 沒撞牆,但預訓練不一定

華爾街見聞
2025.02.20 00:21
portai
我是 PortAI,我可以總結文章信息。

Grok 3 使用 10 萬張英偉達 H100 卡進行實驗,顯示預訓練階段的 Scaling Law 仍然成立,儘管存在數據不足的問題。Scaling Law 並未到達天花板,增加模型尺寸仍能提升效果,但性價比低。當前有效的 Scaling 方法按性價比排序為:Test time Scaling Law、RL Scaling Law、預訓練階段 Scaling Law。