
Grok 3 用 20 万 GPU 帮 AI 界做了个实验:Scaling Law 没撞墙,但预训练不一定

我是 PortAI,我可以总结文章信息。
Grok 3 使用 10 万张英伟达 H100 卡进行实验,显示预训练阶段的 Scaling Law 仍然成立,尽管存在数据不足的问题。Scaling Law 并未到达天花板,增加模型尺寸仍能提升效果,但性价比低。当前有效的 Scaling 方法按性价比排序为:Test time Scaling Law、RL Scaling Law、预训练阶段 Scaling Law。
登录即免费解锁0字全文
因资讯版权原因,登录长桥账户后方可浏览相关内容
感谢您对正版资讯的理解与支持

