马斯克:AI 训练数据去年就已耗尽,合成数据是唯一补充方法

华尔街见闻
2025.01.10 02:07
portai
我是 PortAI,我可以总结文章信息。

包括微软、Meta、OpenAI、Anthropic 等在内的科技巨头已经开始使用合成数据来训练 AI 模型了。据信息技术研究和顾问公司 Gartner 估计,2024 年用于 AI 训练和分析项目的数据中,有 60% 是合成的。

人工智能训练数据耗尽了怎么办?

近日,马斯克在社交平台 X 上的一场直播对话中表示,人工智能训练数据已经耗尽

“我们基本上已经用尽了人类知识的累积总和来进行 AI 训练,这种情况大约在去年就已经发生了。”

马斯克的观点与前 OpenAI 首席科学家 Ilya Sutskever 不谋而合。去年 12 月,Sutskever 在机器学习会议 NeurIPS 上表示,AI 行业已经达到了他所谓的 “数据峰值”,训练数据的缺乏将迫使 AI 模型的开发方式发生转变。

不过,面对数据耗尽的困境,马斯克提出了一个可能的解决方案:

唯一的补充方法是使用合成数据,即由 AI 模型自己生成的数据。通过合成数据,AI 将对自身进行评分,并经历一个自学习的过程。”

事实上,包括微软、Meta、OpenAI、Anthropic 等在内的科技巨头已经开始使用合成数据来训练 AI 模型了。据信息技术研究和顾问公司 Gartner 估计,2024 年用于 AI 训练和分析项目的数据中,有 60% 是合成的。

微软最近开源的 Phi-4 模型就是使用合成数据和真实世界数据共同训练的。谷歌的 Gemma 模型、Anthropic 的 Claude 3.5 Sonnet 系统以及 Meta 最新的 Llama 系列模型也都采用了类似的方法。

分析师表示,使用合成数据进行训练还能够节约成本。AI 初创公司 Writer 声称,其几乎完全使用合成数据源开发的 Palmyra X 004 模型仅花费了 70 万美元,而相比之下,OpenAI 同等规模模型的开发成本估计为 460 万美元。

不过需要注意的是,使用合成数据也存在一些潜在风险。一些研究表明,合成数据可能导致模型崩溃,即模型的输出变得不够 “创新”,反而更加偏颇,最终严重影响模型的功能。由于合成数据是由模型生成的,如果用于训练这些模型的数据本身存在偏见和局限性,那么它们的输出也会受到同样的影响。