
赛道 Hyper | “可灵 AI+Lovart”:AI 工具链整合

AI 视频生成的产业级应用样本。
作者:周源/华尔街见闻
最近,快手旗下可灵 AI 与全球设计智能体 Lovart 达成深度合作,双方通过 API 接口实现技术协同,Lovart 将可灵 AI 的视频生成能力嵌入其设计流程,支持单次任务自动生成超过一分钟的完整视频内容,覆盖广告营销、Vlog(Video Blog/Video Weblog)等多类场景。
这场合作恰似熊彼特在《经济发展理论》中所言的 “创造性破坏”——当生成式 AI 技术与设计流程深度融合,传统内容生产模式,就开始经历从工具迭代到生态重构的质变;而这一合作是生成式 AI 技术在内容创作领域的重要进展,意味着 AI 工具链整合进入新阶段。
整合 AI 工具链适应变革
从产业背景看,中国内容创作市场正经历结构性变革。
根据 IDC《中国生成式 AI 应用开发平台市场》报告,2025 年中国生成式 AI 软件市场规模预计达 35.4 亿美元,智能算力需求持续增长。
随着生成式 AI 技术的成熟,广告营销、影视制作等行业对高效内容生产的需求激增,传统依赖人工的创作模式已难以满足市场快速迭代的要求。
可灵 AI 与 Lovart 的合作,正是对这一产业趋势的直接响应。
可灵 AI 作为快手自研的视频生成大模型,其技术优势主要体现在三个方面,即生成能力、多模态协同和商业化成熟程度。
生成能力方面,可灵 AI 支持 1080P 高清视频输出,通过 v1.5 高品质模型实现画面质量、动态质量提升 95%,支持最长 3 分钟的视频生成,远超抖音即梦 AI(5 秒)和腾讯混元(文生视频 16 秒、图生视频 5 秒)。
必须明确,可灵 AI 生成视频时长 “3 分钟”,实际上是用户对初始生成的 4-5 秒视频多次续写的总时长,并非一次性能完成;单次生成时长仍受限于模型架构(如可灵 2.1 大师版单次生成上限为 10 秒),续写功能依赖提示词连贯性,复杂场景可能出现内容断层。
多模态协同:结合类 Sora 的 DiT 结构与 Flow 扩散模型,可灵 AI 在物理模拟(如流体运动、重力影响)和细节表现(如毛发、面部肌肉动态)上达到行业领先水平。
商业化层面,截至今年 6 月,可灵 AI 已为超过 1 万家企业客户提供 API(应用程序编程接口:Application Programming Interface)服务,覆盖广告营销、影视动画等领域,企业客户续费率较高。
Lovart 是全球首个设计领域的智能 Agent,核心价值在于构建从需求理解,再到成品输出的全链路自动化能力。
通过自然语言交互,Lovart 的用户只需输入 “30 秒视频广告,6 帧故事板” 等指令,Lovart 即可自动完成分镜脚本撰写、角色造型设计、场景布局规划等任务,并调用可灵 AI 生成视频内容。
举个例子,在 “VIVIDPIX” 品牌发布案例中,Lovart 不仅生成 3D Logo 动画,还通过 Suno AI 同步创作品牌主题曲,实现视觉与听觉的初步统一。
此次双方合作的核心在于 “AI 工具链” 的整合。
Lovart 通过调用可灵 AI 的 API,将视频生成环节深度嵌入设计流程,解决了传统设计工具在动态内容生产上的短板。
以植物奶品牌视觉系统设计为例,Lovart 调用可灵 AI 生成动态海报的同时,自动匹配背景音乐并优化光影效果,使从需求到成品的全流程耗时从 72 小时压缩至 45 分钟,效率提升超 5 倍。
这种 “设计 - 生成 - 优化” 的闭环,显著降低了专业创作门槛,尤其对中小企业极具吸引力,毕竟设计成本可降低约 70%。
看不见的技术之手
这项合作直接推动内容生产从 “人力密集型” 向 “AI 创意型” 转型。
在广告营销领域,可灵 AI 与 Lovart 的组合可实现 “一句话生成广告视频”,比如输入 “经典红,定义你的力量”,系统自动生成包含口红特写、派对场景的分镜视频,并匹配磁性女声旁白。
正如《失控》作者凯文・凯利所言,“最深刻的技术是那些看不见的技术”。当 AI 工具链融入生产流程,其价值已超越技术本身,成为产业运行的底层基础设施。
这种能力使企业能快速响应市场热点,将营销素材的制作周期,从数周缩短至数小时。
对可灵 AI 而言,双方合作进一步巩固其在 B 端市场的优势。
据快手科技在 5 月 27 日发布的 2025 年第一季度财报,截至报告期末,可灵 AI 收入规模已达 1.5 亿元,其中 P 端付费订阅会员贡献近 70% 营收。
与 Lovart 的合作,快手科技的 AI 视频技术优势,能延伸至设计领域,形成差异化竞争力;Lovart 通过整合可灵 AI 的视频生成能力,也弥补了自身在动态内容生产上的不足。
当前,可灵 AI 在视频生成领域的竞对主要是腾讯混元和字节跳动(即梦 AI),前者的视频生成模型能实现 16 秒文生视频生成,还支持多视角镜头切换;即梦 AI 则推出 2K 分辨率、最长 5 秒的视频生成功能。
因此,可灵 AI 需持续优化模型性能,如提升中文语义理解精度,并加强与 ISV(独立软件开发商)的合作,扩大应用场景覆盖;而 Lovart 在内测阶段仍面临生成效率问题:生成 5 秒视频需 5 分钟,稳定性尚有待提升。
可灵 AI 与 Lovart 的合作,本质上是技术理性与创意感性的一次握手。
这场 “创意与创意” 碰撞的合作,没有 “划时代” 的豪言,却切切实实地将视频生成,从 “少数人的特权” 变为 “多数人的工具”,在技术的点滴改进中,推动着内容产业向更高效、更普惠的方向演进。
就像达芬奇在《论绘画》中写的那样,“艺术借助科学,才能更精准地表达想象”。
当 AI 技术成为创意表达的 “新画笔”,业界见证的不是技术超越人类的想象能力,而是人机协同打开了新的可能:在由算力编织的画布上,创意之海的画卷,正徐徐展开。

