用户付费在大语言模型中尚未跑通,但正悄然在 AI 视频生成赛道中生根发芽。 今年 6 月,AI 视频生成初创公司 Runway 的年化营收超过 9000 万美元(约合人民币 6.4 亿元);同年第二季度,快手(1024.HK)旗下的 AI 视频生成应用 “可灵” 创收超过 2.5 亿元。 国内初创公司纷纷涌上牌桌。 北京生数科技有限公司(下称 “生数科技”)的 “Vidu”、北京爱诗科技有限公司(下称 “爱诗科技”)的 “拍我” 用户数均已突破千万;作为 “杭州 AI 六小龙” 首个 IPO,Manycore Tech Inc.(下称 “群核科技”)年内亦计划发布针对 C 端消费者的 AI 视频生成产品。 市场对于 AI 视频的商业化前景不仅是局限于个人创作者生成一段短视频,还有影视创作、具身智能等更多领域。 但由于空间一致性、内容拼接的崩坏等问题的存在,亦让 AI 视频生成模型陷入 “卖家秀” 和 “买家秀” 的争议中。 尽管属于 AI 视频生成行业的 DeepSeek 时刻尚未到来,但在各家大厂的加码下,市场有理由相信未来的发展路径会愈发清晰。 拼时长 2024 年 2 月,OpenAI 推出了 Sora 1.0,较此前 Runway 只能生成 3-4 秒的视频来说实现了突破性的进展,成为全球首个支持生成长达 60 秒的 AI 视频生成模型。 此后国产模型也逐渐对此实现追赶。 目前国内既有字节、快手、百度等互联网大厂,也有生数科技、爱诗科技等初创公司正在探索 AI 视频生成应用领域。 南方一家科技公司产品经理告诉信风,今年以来 AI 视频生成领域最大的变化主要体现在时长,即可以通过 AI 生成更长的视频。 虽然当前 AI 视频生成模型公司一次生成的视频时长基本在 5 秒-10 秒,但通过一个个镜头的生成已经可以组合形成一段连贯的视频。 影视行业便是第一批尝鲜者。 今年 8 月上线的 50 集动漫短剧《明日周一》,便是通过生数科技的 Vidu AI 视频模型生成。 实操方面,《明日周一》制作团队采取原画师手绘核心角色设定,再通过 Vidu 的图生视频及参考生功能进行动画延展。 生数科技告诉信风,《明日周一》80% 左右内容由 Vidu Q1 的图生视频功能和参考生视频生成,深度贯穿了从美术设定到动画成片的多个核心环节。这也使得不到 10 人的制作团队 45 天内就完成了《明日周一》第一季 50 集的所有内容制作,平均不到一天产出 1 集,而传统 2 分钟漫剧制作周期长达一周,制作效率提升至少 7 倍。 快手旗下的 “可灵” 重要场景之一亦是影视制作。 据快手管理层在业绩电话会透露,目前 “可灵” 客户群体涵盖了包括专业人士在内的大众创作者、电商及广告行业从业者和影视制作工作室等。 长度的限制仍在被进一步打破。 日前,百度对旗下 AI 视频生成模型 “百度蒸汽机” 进行升级,支持用户生成无限长度的 AI 视频,一举打破了此前 AI 仅能生成 5-10 秒短视频,或依赖首尾帧控制续写时长的局限。 使用中,用户只需输入图像和提示词,就能生成任意时长的视频。 前述南方科技公司产品经理认为,视频时长的突破背后不只是 “堆算力” 带来的结果,更关键的动力源自算法的优化和数据量的增加。 据百度介绍,长视频生成技术方案上主要引入自回归扩散模型,结合自回归的长序列能力和扩散一致性强的优势,能够准确生成符合世界物理规律且高一致性的长视频。 信风参与百度蒸汽机的内测,以人物作为首图和 “1-5s 镜头跟随,⼈物快速向⾛。6-10s 镜头跟随,⼈物向前⾛向楼梯。11-15s ⼈物向前⾛,镜头跟随,右摇。16-20s ⼈物向前⾛,镜头跟随,右摇,环绕到⼈物正⾯。” 为提示词结合的方式,生成了一段 20 秒的短视频。(见「百度蒸汽机」AI 视频⽣成模型) 在视频中可以看到,虽然人物表情变化衔接宛如换了一张脸,且物体出现凭空消失的情况,但人物运动轨迹自然,背景也没有出现崩坏的情况。 价格战硝烟 尽管国内的大语言模型尚未能走通向 C 端用户收费的路径,但 AI 视频生成模型公司已经在探索商业化模式。 从收费情况来看,各家差异较大。 仅以标准版为例,可灵、生数科技的 Vidu 分别为 66 元、59 元;爱诗科技的拍我、字节跳动的即梦则均为 79 元。 不过 Vidu、即梦属于 “加量不加价 “,分别可生成 200 个/月、216 个/月的视频。相比之下,可灵、拍我则只能生成数十个视频。 各家的商业化均已取得一定的成果。 目前快手是为数不多披露 AI 视频生成应用商业化成果的大厂,2025 年第二季度 “可灵” 的收入已超 2.5 亿元。 初创公司方面,生数科技的 Vidu 上线 8 个月年化经常性收入(ARR)突破 2000 万美元(折合人民币 1.4 亿元);爱诗科技的拍我则称订阅收入已经覆盖成本。 不过大厂之间为了吸引专业创作者使用,已经悄然打起了价格战。 据百度透露,百度蒸汽机已经在搜索、营销等多个场景落地应用,且定价低至行业 70%;日前,可灵推出 2.5 Turbo 模型时,核心卖点之一便是 “相比 2.1 模型同档位便宜近 30%,性价比方面优势更加凸显。” 价格战的另一面,是不少公司在跃跃欲试。 信风获悉,正在冲刺港交所 IPO 的群核科技亦在研发一款基于 3D 技术的 AI 视频生成产品,有望在年内发布。 群核科技内部人士向信风透露,该 AI 视频生成产品未来将面向 C 端用户开放。 群核科技的重要优势在于,庞大且物理正确的室内空间数据集。 “我们在开发(家装设计软件酷家乐等)工具的过程当中,积累了海量的数据,这些海量数据与 AI 直接生成的三维模型不一样,包括有物理正确可交互的模型,材质也都是物理正确的,表面的物理系数都有,里边有结构化的信息,也就有结构化标注。” 群核科技董事长黄晓煌指出。 今年 8 月,群核科技的数据集 InteriorGS 还曾一度登上全球最大 AI 开源社区 Hugging Face 趋势榜的榜首,成为全球首个适用于智能体自由运动的大规模 3D 数据集。 这或许都给不少公司带来更多压力,要求各方进一步拓宽商业化边界。 目前市场对该行业的想象空间并不止于影视广告行业,还有机器人训练等场景。 一直以来,机器人训练面临训练数据的稀缺性、场景覆盖局限性、采集成本高等痛点,但 AI 视频生成应用可以为机器人提供虚拟场景进行训练,进而更好地了解真实世界的运行规律。 部分机器人公司正在自研算法。例如今年 3 月具机器人公司逐际动力发布的具身智能操作算法 LimX VGM,正是利用视频生成技术推动具身大脑突破。 一名参与该项目人士向信风坦承,受限于数据量的问题,目前视频生成大模型的泛化程度有限。 但该人士持乐观态度,颇为看好 AI 视频生成模型用于机器人虚拟环境训练的行业趋势。 此前业绩会上,快手管理层则表示计划扩大 “可灵” 在游戏制作、专业电影以及视觉制作中的应用。 买家秀 VS 卖家秀 尽管当前各家 AI 视频生成公司均表示提升了空间一致性,但信风实测来看主体运动过程中脸部表情崩坏、背景出现清晰模糊交织的问题层出不穷。 以拍我为例,信风使用图生视频的方式生成了一段人物跳舞的短视频,但出现人物表情变形、物体凭空消失等问题。(见「拍我」AI 视频模型⽣成) 杭州一位行业人士告诉信风,复杂运动场景下偶现的面部细节与背景一致性问题,是行业共同面临的技术挑战,核心难点在于模型对长时序运动轨迹与多尺度语义连贯性的精准建模。 群核科技产品经理龙天泽认为这与训练的数据来源有关。 “核心在于现在的 AI 视频算法是基于 2D 图像序列去学习,所以不可能真正理解 3D 空间和规则,它学会了如何让上一帧图像在视觉上变的更像下一帧图像,但是它并不理解真正的 3D 空间关系,不理解所谓的物理世界运行的基本逻辑。” 龙天泽指出。 目前各方主要从优化算法、构建数据集的角度解决空间一致性问题。 生数科技告诉信风,目前主要通过三大路径进行优化:一是基于自研 U-ViT 架构的时空联合注意力机制优化,增强模型对主体运动轨迹与背景关联性的预测能力;二是构建超大规模高质量视频训练数据集,针对性强化复杂运动模式的语义理解;三是引入动态遮罩与一致性补偿算法,在后期生成环节实时修复帧间异常。 “目前我们的参考生视频功能已实现从人脸到主体多层次的一致性提升,后续将重点突破大幅度运动下的稳定性边界。” 生数科技表示。 群核科技方面则是在推进 3D 视频生成的工作流研发,有望在变化的运境下降低明显的穿模和畸变的反应。 不过这类方式的挑战在于,使用者需要掌握视频生成的数据输入等。 隐私的边界 高质量的数据集是当前不少 AI 视频生成模型公司渴求的训练素材。 部分国外大厂为了提升对 AI 视频生成模型的人物主体一致性的训练,甚至不惜通过下载成人电影作为训练素材。 Meta 便遭受如此质疑。 今年 7 月,两家美国成人电影公司 Strike 3 Holdings 和 Counterlife Media,便以 Meta 偷偷下载 2396 部成人电影训练自家的 AI 模型为由,将其推向了被告席。 “确实是个很新的案件,涉及版权侵权,估计 Meta 还是会主张 fair use(合理使用)。” 一位在美执业的知识产权律师告诉信风,“现在对于这些训练素材也没有什么统一的规则,只能是争议中前行。” 相比之下,国内的平台在训练素材方面或许拥有更多弹性的空间,这当中尤以视频平台独具优势。 虽然视频平台并不拥有对用户所发布视频的独占权,但一般拥有使用权。 例如快手的《基本功能隐私政策》中明确指出,为了实现广告推送与投放,并有助于其评估广告投放效果、有效性之目的,可能需要与广告主、服务商、供应商第三方合作伙伴读取用户的部分信息与数据。 这或许意味着,快手、抖音等视频平台在 AI 视频生成赛道方面相比其他公司将拥有更多数据优势。 随着 AI 视频生成赛道的逐渐发展,数据使用的边界或许也将更加清晰。