横空出世的 Sora,以碾压其他文生视频模型的姿态,让全球影视行业从业者瑟瑟发抖,继续为狂飙的 AI 热潮注入了一针强心剂,也进一步巩固了 OpenAI 作为 GenAI 尖端技术领头羊的身份。 不过,驱动 Sora 的技术,其实是早早几年前就已经出现在人工智能研究领域的 Diffusion Transformer 架构。 这一架构最出色的地方就在于,它可以让 AI 模型的规模,突破以往的技术限制,即参数规模越大、训练时长越长、训练数据集越大,生成视频的效果更好。Sora 就是这样一个 “大力出奇迹” 的产物。 什么是 Diffusion Transformer 在机器学习中,有两个关键概念:1)Diffusion;2)Transformer。 首先来说 Diffusion,大多数可以生成图像、视频的 AI 模型,包括 OpenAI 的 DALL-E3,都依赖于一种叫做 Diffusion 的过程来输出图像、视频、音频等内容。 Diffusion 的工作原理,是通过连续添加高斯噪声来破坏训练数据(前向过程,forward),然后通过反转这个噪声(逆向过程,reverse),来学习恢复数据。即首先将随机采样的噪声传入模型中,通过学习去噪过程来生成数据。 在模型的逆向过程中,diffusion 需要依赖一个叫做 U-Net 的引擎,来学习估计要去除的噪声。但 U-Net 非常复杂,其专门设计的模块会大大降低 diffusion 生成数据的速度。 Transformer 则是目前主流 LLM 如 GPT-4、Gemini 等模型背后的技术基础。它可以取代 U-Net,提高 Diffusion 过程的效率。Transformer 有着独特的 “注意力机制”。对于每一条输入数据(如 Diffusion 中的图像噪声),Transformer 都会权衡其他每一条输入(图像中的其他噪声)的相关性,并从中学习,生成结果(图像噪声的估计值)。 注意力机制不仅使 Transformer 比其他模型架构更简单,而且使架构可并行化。简单来说,也就是说可以训练出越来越大的 Transformer 模型,同时显著提高计算能力。 Diffusion Transformer 这个概念由纽约大学计算机教授谢赛宁与 William Peebles(现任 OpenAI Sora 的联合主管)共同提出。 谢赛宁教授在接受媒体采访时表示: Transformer 对 Diffusion 过程的贡献类似于引擎升级。Transformer 的引入......标志着可扩展性和有效性的重大飞跃。这一点在 Sora 等模型中体现得尤为明显,这些模型得益于对海量视频数据的训练,并利用更高的模型参数来展示 Transformer 在大规模应用时的变革潜力。 Sora 是 “大力出奇迹” 的产物 根据华福证券的分析,Sora 生成视频的过程,大致如下: 视频编码:VisualEncoder 将原始视频压缩为低维潜在空间,再将视频分解为时空 patches 后拉平为系列视频 token 以供 transformer 处理。 加噪降噪:在 transfomer 架构下的扩散模型中,时空 patches 融合文本条件化,先后经过加噪和去噪,以达到可解码状态。 视频解码:将去噪后的低维潜在表示映射回像素空间。 可以看到,Sora 的主要特点就是采用 transformer 替代了 U-Net 引擎。分析师施晓俊认为,Sora 替换 U-Net 为 DiT 的 transformer 作为模型架构,具有两大优势: 1)Transformer 可将输入视频分解为 3Dpatch,类似 DiT 将图片分解为图块,不仅突破了分辨率、尺寸等限制,而且能够同时处理时间和空间多维信息; 2)Transformer 延续了 OpenAI 的 ScalingLaw,具有较强的可拓展性,即参数规模越大、训练时长越长、训练数据集越大,生成视频的效果更好。例如,Sora 随着训练次数的增加,小狗在雪地里的视频质量显著提升。 然而,Transformer 最大的缺点就是——贵。 其全注意力机制的内存需求会随输入序列长度而二次方增长,因此高分辨率图像处理能力不足。在处理视频这样的高维信号时,Transformer 的增长模式会让计算成本变得非常高。 换句话说,Sora 的诞生,是背靠微软的 OpenAI 疯狂烧算力的结果。相比于 U-Net 架构,Transformer 突显 ScalingLaw 下的 “暴力美学”,即参数规模越大、训练时长越长、训练数据集越大,生成视频的效果更好;此外,在 Transformer 大规模训练下,逐步显现出规模效应,迸发了模型的涌现能力。