
AI 世界的新难题:互联网的信息不够用了!

AI 行业对高质量文本数据的需求可能在两年内超过供应。报道称,OpenAI 讨论了使用公开 YouTube 视频字幕训练 GPT-5。
来源:硬 AI
作者:房家瑶
高质量数据的紧缺正成为 AI 发展的重要障碍。
4 月 1 日,据媒体报道,随着 OpenAI、Google 等企业不断深入发展 AI 技术,科技巨头们遇到了一个新问题:现有的互联网信息量可能不足以支撑他们训练更先进的 AI 系统。
科技巨头的 AI 系统,比如能与人类聊天的 ChatGPT,是通过学习网上的信息变得越来越聪明的。但现在,高质量、有用的信息日益紧缺,同时,一些网站开始限制 AI 公司访问他们的数据。据业界一些高管和研究人员表示,AI 行业对高质量文本数据的需求可能在两年内超过供应,这将可能减缓 AI 技术的发展速度。

面对信息不足的问题,AI 公司正在尝试各种方法来寻找新的信息源。比如OpenAI 正在考虑用 YouTube 视频里的对话来训练它们的下一代智能模型 GPT-5。有的公司甚至创造合成数据来学习,尽管这种方法被许多研究人员认为可能会导致系统发生严重故障,但不失为克服数据短缺的一种潜在途径。
据悉,这些努力大多保密进行,因为找到有效的解决方案可能成为企业在激烈竞争中的关键优势。随着数据需求不断增长,找到新的学习材料、与数据所有者的合作,让 AI 系统变得更加聪明,就成了这个行业的重要备战区。
OpenAI 的 GPT-5 面临 10 万亿到 20 万亿 tokens 的数据短缺
AI 语言模型的构建依赖于从互联网上收集的大量文本数据,这些数据包括科学研究、新闻文章、维基百科条目等。这些材料被分解成 “tokens”,tokens 可以是完整的单词或单词的一部分。AI 模型通过分析和理解这些 tokens 之间的关系和模式,学会了如何生成流畅、自然的语言,从而能够回答问题、撰写文章甚至创作诗歌。
模型的能力在很大程度上取决于它训练的数据量。通常情况下,数据越多,模型的性能就越好,因为它有更多的例子来学习不同的语言用法和复杂性。
OpenAI 通过为其 GPT 系列模型提供海量训练数据,不断提升性能,借此成为世界顶尖 AI 公司。这展示了大数据训练对于 AI 发展的重要性。
但是,随着 GPT-4 模型的不断扩大,OpenAI 对数据的需求也在急剧增长。Epoch 研究所的 AI 研究员 Pablo Villalobos 估计,GPT-4 训练涉及的数据量高达 12 万亿 tokens,而未来模型,如 GPT-5,可能需要 60 万亿到 100 万亿 tokens。因此,即便是利用所有可用的高质量语言和图像数据,研发 GPT-5 仍可能面临 10 万亿到 20 万亿 tokens 的数据短缺。至于如何弥补这一巨大的数据缺口,目前尚无明确方案。
据媒体报道,为应对数据短缺挑战,AI 公司正在尝试各种方法来寻找新的信息源。Meta 创始人扎克伯格近期强调,公司通过 Facebook 和 Instagram 等平台拥有的大量数据,为其 AI 研发提供了重要优势。扎克伯格表示,Meta 能够利用网络上数以百亿计的公开共享图片和视频,这些数据的规模超过了大多数常用数据集,尽管其中高质量数据的比例尚不明确。

而 OpenAI 则考虑使用其自动语音识别工具 Whisper 转录的高质量视频和音频示例。此外,OpenAI 还在考虑建立一个数据市场,以评估每个数据点对模型训练的贡献并据此向内容提供者支付费用,这一创新想法也引起了 Google 的关注。
Epoch 研究所预测 AI 数据短缺危机将推迟至 2028 年
两年前,Villalobos 和他的同事写道,到 2024 年年中,对高质量数据的需求超过供给的可能性为 50%,到 2026 年发生这种情况的可能性为 90%。自那以后,他们变得更加乐观,在 AI 研究员 Pablo Villalobos 及其团队的审慎评估下,新的预期显示,这种短缺风险将延迟至 2028 年。
这项乐观的更新基于对当前数据质量和可用性的深刻洞察。Villalobos 指出,互联网上的绝大多数数据并不适合作为 AI 训练材料。在无尽的信息流中,只有一小部分数据(远低于先前预计)能对 AI 模型的增长和发展做出实质性贡献。
同时,各大社交媒体平台和新闻出版商已开始限制其数据被用于 AI 训练。他们担心如果数据被自由用于 AI 训练,可能导致内容创造者和平台本身失去应得的经济回报。
此外,普罗大众对于个人隐私的保护意识显著提升,许多人对于将私人对话如 iMessage 中的聊天记录提供给 AI 训练的意愿较低,人们可能担心他们的隐私可能会受到侵犯。
最近,一位女记者就 OpenAI 最新模型 Sora 的训练数据向 CTO Murati 提问时,Murati 未能明确回答,这引发了业界对 OpenAI 管理层对于训练数据来源的关注度的质疑。这一事件触发了更广泛的讨论,关于公共领域数据的所有权问题——我们在网络上发布的内容,究竟是属于个人私密还是公共共享的资产?
因此,这些因素共同导致了数据获取的困境。随着用户和监管机构对数据使用的监控趋严,研究者们必须在保护隐私与数据采集之间找到新的均衡。

