
什么是开源 AI?官方定义终于来了 Meta Llama 模型没过关

长期致力于定义和 “管理” 所有开源事务的开放源代码倡议(OSI),周一发布了其开源 AI 定义(OSAID)1.0 版。根据 OSAID,AI 模型若要被视为开源,必须提供足够的信息,使任何人都可以 “实质性地” 重建该模型。模型还必须披露与其训练数据相关的任何重要细节,包括数据的来源、处理方式以及获取或许可的方式。然而,Meta 并不认可这一定义,认为不存在单一的开源 AI 定义。
开源 AI 终于有了 “官方” 定义。
长期致力于定义和 “管理” 所有开源事务的开放源代码倡议(OSI),周一发布了其开源 AI 定义(OSAID)1.0 版。根据 OSAID,AI 模型若要被视为开源,必须提供足够的信息,使任何人都可以 “实质性地” 重建该模型。模型还必须披露与其训练数据相关的任何重要细节,包括数据的来源、处理方式以及获取或许可的方式。
OSAID 还列出了开发者使用开源 AI 时应享有的使用权,例如可以为任何目的使用和修改模型,而无需获得他人许可。
OSI 执行副总裁 Stefano Maffulli 表示,制定开源 AI 官方定义主要目的是,让政策制定者和 AI 开发者达成一致。
“监管机构已经在关注这一领域。我们明确向各方利益相关者和社区进行了推广,甚至还试图联系那些经常与监管机构交流的组织,来获取早期反馈。”
“开源 AI 是一种允许你完全理解其构建方式的 AI 模型,这意味着你可以访问所有组件,比如用于训练和数据过滤的完整代码。最重要的是,你应该能够在其基础上构建。”
OSI 并不强制施压开发者遵守 OSAID 定义,但打算对那些不符合该定义却被描述为 “开源” 的模型进行标记。“我们希望当有人试图滥用这个术语时,AI 社区会说,‘我们不承认这是开源’,并加以纠正。” Maffulli 说道。
Meta:我反对
目前,许多初创企业和大型科技公司,尤其是 Meta,称其 AI 模型发布策略为 “开源”,但很少符合 OSAID 的标准。研究人员发现,许多 “开源” 模型实际上只是名义上开源,但实际训练模型所需的数据是保密的,而且运行这些模型所需要的计算能力超出了许多开发者的能力范围。
例如,Meta 要求月活跃用户超过 7 亿的平台获得特殊许可才能使用其 Llama 模型。Maffulli 公开批评 Meta 将其模型称为 “开源” 的做法。而谷歌和微软在与 OSI 讨论后,已经同意不再将不完全开放的模型称为 “开源”,但 Meta 并未这么做。
此外,长期宣传其模型为 “开源” 的 Stability AI 要求年收入超过 100 万美元的企业获得企业许可,而法国 AI 新创公司 Mistral 的许可证则禁止将某些模型和输出用于商业用途。
Meta 自然不认同这一评估。尽管该公司参与了定义的起草过程,但对 OSAID 的措辞表示异议。Meta 发言人称,Llama 的许可条款和随附的可接受使用政策对有害应用提供了防护。Meta 还表示,在加州 AI 相关法规正在演变之际,该公司对共享模型细节的做法是 “谨慎的”。
“我们在许多方面与 OSI 的伙伴立场一致,但我们以及业内其他公司都不同意他们的新定义,我们认为没有单一的开源 AI 定义,因为过去的开源定义无法涵盖当今迅速发展的 AI 模型的复杂性。我们让 Llama 免费公开使用,并通过许可和使用政策来确保安全。无论技术定义如何,我们将继续与 OSI 和其他行业团体合作,增加免费 AI 使用的便利程度。”
分析认为,Meta 不愿公开训练数据,很可能与其自身及大多数 AI 模型的开发方式有关。
AI 公司从社交媒体和网站上收集大量图像、音频和视频等数据,并以这些 “公开可用数据” 训练模型。在如今竞争激烈的市场中,数据集的收集和优化方法被视为竞争优势,公司常以此为由拒绝披露。
但训练数据的细节也可能让开发者面临法律风险。作者和出版商声称,Meta 使用了受版权保护的书籍进行训练。艺术家们也对 Stability AI 提起诉讼,指控其使用其作品而未给予认可,将其行为比作盗窃。
因此,OSAID 的开源 AI 定义,可能会给那些试图顺利解决诉讼的公司带来问题,特别是如果原告和法官认为该定义足够合理而在法庭上引用。

