---
title: "多模态 “Deepseek 时刻” 下的大厂分化：字节拼 “效率”，快手攻 “专业”，阿里聚焦 “电商”！"
type: "News"
locale: "zh-CN"
url: "https://longbridge.com/zh-CN/news/275709406.md"
description: "华创证券表示，年初国产多模态模型密集更新，可灵 3.0 与 Seedance 2.0 等显著提升了 “可控性”，标志着 AI 视频从娱乐向工业化生产跨越。通过压低 “抽卡” 废片率，视频生产边际成本向算力成本收敛。字节侧重效率基建，快手深耕专业叙事，阿里发力垂直电商，共同推动内容供给侧革命及 IP 价值重估。"
datetime: "2026-02-12T06:35:39.000Z"
locales:
  - [zh-CN](https://longbridge.com/zh-CN/news/275709406.md)
  - [en](https://longbridge.com/en/news/275709406.md)
  - [zh-HK](https://longbridge.com/zh-HK/news/275709406.md)
---

> 支持的语言: [English](https://longbridge.com/en/news/275709406.md) | [繁體中文](https://longbridge.com/zh-HK/news/275709406.md)


# 多模态 “Deepseek 时刻” 下的大厂分化：字节拼 “效率”，快手攻 “专业”，阿里聚焦 “电商”！

年初这一波多模态更新来得很密：1 月 31 日快手把可灵（Kling）推到 3.0，2 月 7 日字节发布 Seedance 2.0，2 月 10 日字节的 Seedream 5.0 和阿里的 Qwen-Image-2.0 又把 “文生图/图像编辑” 底座补了一刀。

华创证券研究所的姚蕾 12 日在报告里的判断很直接——视频生成不再只是炫技，而是在往能进工作流的工具演化：“AI 视频生成正在从盲盒式娱乐向精准工业化生产跨越。” 商业化迟迟起不来的症结，归到 “抽卡” 导致的边际成本不可控：同样的需求要反复生成、反复返工，废片率吞掉时间和预算。

这次可灵 3.0 和 Seedance 2.0 的升级重点，不是单纯拼画质，而是把可控性抬到优先级更高的位置：跨镜头主体一致性、复杂指令的语义遵循、以及 “生成后还能改” 的编辑能力，合在一起去压低废片率。研报的结论是：技术跨越让 AI 视频具备进入规模化 B 端工作流的基础，电商广告、短剧/漫剧制作会更早感受到冲击。

往下推，报告把影响拆成两层：一层是产品路线分化——**字节更像在做 “效率基建”，快手更偏 “专业叙事”**；另一层是供给侧革命重算成本结构——**内容生产的边际成本越来越像算力成本。**对应到投资线索，研报把受益方向落到内容 IP、内容版权、AI 视频工具/模型，以及云与平台的推理侧需求上。

## 真正被解决的，是 “抽卡” 带来的不可控成本

报告反复强调一个逻辑链：过去 AI 视频难以商用，不是 “做不出来”，而是 “做出来太不稳”。同样的脚本、同样的素材和提示词，成片质量波动大，逼着创作者用更多轮生成去赌结果，边际成本就失控了。

**报告认为新一代模型的意义在于把 “生成能力” 往后放了一位，把 “可控性” 放到前台：**通过原生多模态架构、指令对齐，以及对主体一致性/语义遵循的强化，把废片率压下去，整体视频生产成本才会跟着掉下来。商业化的门槛因此被重新划线——从 “能不能做” 变成 “能不能稳定交付”。

## 可灵 3.0 押注 “大片感”：物理拟真与长逻辑叙事更优先

研报把可灵 3.0 的关键词归为两件事：**基础能力的系统升级，以及生成与编辑的一体化（Omni）。**

在视频侧，可灵 3.0 的升级点主要落在：多镜头/连续动作场景下的主体一致性更强；复杂文本指令解析更细；多人同框时的指代混乱被缓解，并强调了 “文本与视觉角色精准映射”（包括多语种、方言口音演绎与口型神态自然）。

Omni 模式是另一个被重点拿出来讲的变化：在已生成内容基础上做局部可控修改，减少 “推倒重来”。报告还提到两项更偏专业创作的能力：一是可创建视频主体（提取角色特征与原声音色，做精准口型匹配与驱动）；二是原生自定义分镜能力，并把单次生成时长提升至 15 秒，允许在镜头级别指定时长、景别、视角、叙事内容和运镜方式。

图片侧，可灵图片 3.0 也被当作 “工作流补全” 的一环：最多支持 10 张参考图以锁定主体轮廓、核心元素与色调基调；多参考图可自由指定元素并做增删改；支持批量组图输出，用于故事板/素材包制作；同时强化高清输出与细节表现。

## Seedance 2.0 把视频做成 “可编排” 的工业工具

**报告对 Seedance 2.0 的定位更像 “工业化标准”：**基础层面更强调物理规律合理、动作自然、指令理解精准、风格保持稳定；并突出三类能力——一致性优化（从人脸到服装、字体细节、场景跳变等）；高难度运镜与动作的可控复刻；创意模板/复杂特效的精准复刻。

更关键的是交互范式。研报认为 Seedance 2.0 用 “@素材名” 指定图片/视频/音频用途，实质是在把黑盒式生成拆解成可控的生产流程：模型可以分别提取 @视频的运镜、@图片的细节、@音频的节奏，从而显著降低 “废片率”。

报告给出的使用与限制也更贴近 “生产约束”：支持图片输入≤9 张；视频输入≤3 个且总时长不超过 15 秒；音频支持 MP3 上传≤3 个且总时长不超过 15 秒；混合输入总上限 12 个文件；生成时长≤15 秒（可选 4-15 秒）；并提供自带音效/配乐输出。入口上，“首尾帧” 和 “全能参考” 对应不同的素材组织方式。

## 字节走 “效率基建”，快手走 “专业叙事”，阿里更偏电商垂直

研报对竞争格局的判断不太看 “跑分排名”，更在意厂商战略分野。

报告把**字节的路线概括为低门槛、低成本的工具化、泛化能力，**类似 “剪映” 的高级形态，目标是降低全网内容生产成本并反哺生态；**快手可灵则押注物理模拟、复杂场景真实感与角色一致性，**更适合影视 Demo、电影剧情等对连贯性要求高的专业内容；**阿里千问在图像模型高保真更新的方向上更偏垂直场景（电商），**强化商品数字化相关能力。

这三条路指向的不是同一种商业模式：一条追求规模化吞吐，一条追求高质量叙事交付，一条追求垂直行业的 “可用即生产”。

## 内容供给侧革命：边际成本向算力成本收敛，IP 反而更稀缺

商业化推演里，报告把 “供给侧革命” 讲得很激进：**图像与视频基座能力双重提升后，内容生产的边际成本会越来越趋向算力成本。**

短期它更看好两类变化：营销/电商服务商的素材产出效率提高，带来毛利改善；漫剧、短剧行业可能出现产能爆发。中长期则把矛盾推向 IP 端——当内容更容易被生产，稀缺性的定价会更集中到 IP 上：头部 IP 及衍生品价值更高，腰部 IP 也可能通过 AI 视频化实现价值重估。与此同时，拥有强算力基础设施（云）和闭环流量场景（平台）的巨头，会更直接吃到推理侧频繁调用带来的红利。

### 相关股票

- [2 倍做多阿里巴巴 ETF - KraneShares (KBAB.US)](https://longbridge.com/zh-CN/quote/KBAB.US.md)
- [阿里巴巴-W (09988.HK)](https://longbridge.com/zh-CN/quote/09988.HK.md)
- [电子商务 ETF - GlobalX (EBIZ.US)](https://longbridge.com/zh-CN/quote/EBIZ.US.md)
- [阿里巴巴 (BABA.US)](https://longbridge.com/zh-CN/quote/BABA.US.md)
- [快手-W (01024.HK)](https://longbridge.com/zh-CN/quote/01024.HK.md)

## 相关资讯与研究

- [突发！阿里 Qwen 深夜地震，林俊旸官宣「下台离开」](https://longbridge.com/zh-CN/news/277697126.md)
- [阿里巴巴北京朝阳区开潮玩店  推 3 个自家 IP](https://longbridge.com/zh-CN/news/277881503.md)
- [马云率阿里及蚂蚁高层到访杭州云谷学校谈 AI](https://longbridge.com/zh-CN/news/277724170.md)
- [理解市场 | 阿里巴巴-W 再跌超 3% 内部信批准林俊旸辞职 小摩指人事突变引短期风险溢价](https://longbridge.com/zh-CN/news/277887517.md)
- [突发！马云刚发声谈 AI 阿里千问核心负责人林俊旸辞职](https://longbridge.com/zh-CN/news/277720141.md)