DeepSeek 震撼硅谷,从数据到技术,Meta 紧急组建多个小组研究复制

华尔街见闻
2025.01.27 02:10
portai
我是 PortAI,我可以总结文章信息。

这些小组的任务包括分析 DeepSeek 如何降低训练和运行成本、研究其使用的数据集、以及探索如何改进 Meta 的 Llama 模型。Meta 希望通过这些努力,能够在即将发布的 Llama 4 中实现技术突破。

DeepSeek 引硅谷巨震,Meta 陷入恐慌,紧急组建研究小组。

近日,中国 AI 公司 DeepSeek 发布的 R1 模型(DeepSeek R1)热度飙升。1 月 24 日,在专业大模型排名 Arena 上,DeepSeek-R1 基准测试已经升至全类别大模型第三,其中在风格控制类模型(StyleCtrl)分类中与 OpenAI o1 并列第一;而其竞技场得分达到 1357 分,略超 OpenAI o1 的 1352 分。

据报道,面对 DeepSeek 的挑战,Meta 迅速采取行动,已组建了多个 “小组” 来研究 DeepSeek 的技术细节。

其中两个小组正在试图了解 DeepSeek 如何降低训练和运行大模型的成本,第三小组正在试图弄清楚 DeepSeek 使用的数据集,第四小组则正在考虑基于 DeepSeek 模型属性重构 Meta 的 Llama 模型。

此外,DeepSeek 此前在技术论文中介绍的降本方法,也已被 Meta 的研究小组列为重点研究对象,包括模型蒸馏(distillation)等技术。Meta 希望通过这些努力,能够在即将发布的 Llama 4 中实现技术突破。

Meta 的 AI 基础设施总监 Mathew Oldham 等高层领导此前公开表示,他们对 Llama 的表现感到担忧,担心其无法与 DeepSeek 竞争。

Meta 的开发者社区也反映,尽管 Llama 模型是免费的,但其运行成本往往高于 OpenAI 的模型——因为 OpenAI 能够通过批量处理数百万用户的查询来降低成本,而使用 Llama 的小型开发者则无法达到这种规模。

OpenAI 高级研究员 Noam Brown 上周在 X 上表示:

“DeepSeek 表明你可以用相对较少的算力获得非常强大的 AI 模型。”