---
title: "多模態 “Deepseek 時刻” 下的大廠分化：字節拼 “效率”，快手攻 “專業”，阿里聚焦 “電商”！"
type: "News"
locale: "zh-HK"
url: "https://longbridge.com/zh-HK/news/275709406.md"
description: "華創證券表示，年初國產多模態模型密集更新，可靈 3.0 與 Seedance 2.0 等顯著提升了 “可控性”，標誌着 AI 視頻從娛樂向工業化生產跨越。通過壓低 “抽卡” 廢片率，視頻生產邊際成本向算力成本收斂。字節側重效率基建，快手深耕專業敍事，阿里發力垂直電商，共同推動內容供給側革命及 IP 價值重估。"
datetime: "2026-02-12T06:35:39.000Z"
locales:
  - [zh-CN](https://longbridge.com/zh-CN/news/275709406.md)
  - [en](https://longbridge.com/en/news/275709406.md)
  - [zh-HK](https://longbridge.com/zh-HK/news/275709406.md)
---

> 支持的語言: [简体中文](https://longbridge.com/zh-CN/news/275709406.md) | [English](https://longbridge.com/en/news/275709406.md)


# 多模態 “Deepseek 時刻” 下的大廠分化：字節拼 “效率”，快手攻 “專業”，阿里聚焦 “電商”！

年初這一波多模態更新來得很密：1 月 31 日快手把可靈（Kling）推到 3.0，2 月 7 日字節發佈 Seedance 2.0，2 月 10 日字節的 Seedream 5.0 和阿里的 Qwen-Image-2.0 又把 “文生圖/圖像編輯” 底座補了一刀。

華創證券研究所的姚蕾 12 日在報告裏的判斷很直接——視頻生成不再只是炫技，而是在往能進工作流的工具演化：“AI 視頻生成正在從盲盒式娛樂向精準工業化生產跨越。” 商業化遲遲起不來的癥結，歸到 “抽卡” 導致的邊際成本不可控：同樣的需求要反覆生成、反覆返工，廢片率吞掉時間和預算。

這次可靈 3.0 和 Seedance 2.0 的升級重點，不是單純拼畫質，而是把可控性抬到優先級更高的位置：跨鏡頭主體一致性、複雜指令的語義遵循、以及 “生成後還能改” 的編輯能力，合在一起去壓低廢片率。研報的結論是：技術跨越讓 AI 視頻具備進入規模化 B 端工作流的基礎，電商廣告、短劇/漫劇製作會更早感受到衝擊。

往下推，報告把影響拆成兩層：一層是產品路線分化——**字節更像在做 “效率基建”，快手更偏 “專業敍事”**；另一層是供給側革命重算成本結構——**內容生產的邊際成本越來越像算力成本。**對應到投資線索，研報把受益方向落到內容 IP、內容版權、AI 視頻工具/模型，以及雲與平台的推理側需求上。

## 真正被解決的，是 “抽卡” 帶來的不可控成本

報告反覆強調一個邏輯鏈：過去 AI 視頻難以商用，不是 “做不出來”，而是 “做出來太不穩”。同樣的腳本、同樣的素材和提示詞，成片質量波動大，逼着創作者用更多輪生成去賭結果，邊際成本就失控了。

**報告認為新一代模型的意義在於把 “生成能力” 往後放了一位，把 “可控性” 放到前台：**通過原生多模態架構、指令對齊，以及對主體一致性/語義遵循的強化，把廢片率壓下去，整體視頻生產成本才會跟着掉下來。商業化的門檻因此被重新劃線——從 “能不能做” 變成 “能不能穩定交付”。

## 可靈 3.0 押注 “大片感”：物理擬真與長邏輯敍事更優先

研報把可靈 3.0 的關鍵詞歸為兩件事：**基礎能力的系統升級，以及生成與編輯的一體化（Omni）。**

在視頻側，可靈 3.0 的升級點主要落在：多鏡頭/連續動作場景下的主體一致性更強；複雜文本指令解析更細；多人同框時的指代混亂被緩解，並強調了 “文本與視覺角色精準映射”（包括多語種、方言口音演繹與口型神態自然）。

Omni 模式是另一個被重點拿出來講的變化：在已生成內容基礎上做局部可控修改，減少 “推倒重來”。報告還提到兩項更偏專業創作的能力：一是可創建視頻主體（提取角色特徵與原聲音色，做精準口型匹配與驅動）；二是原生自定義分鏡能力，並把單次生成時長提升至 15 秒，允許在鏡頭級別指定時長、景別、視角、敍事內容和運鏡方式。

圖片側，可靈圖片 3.0 也被當作 “工作流補全” 的一環：最多支持 10 張參考圖以鎖定主體輪廓、核心元素與色調基調；多參考圖可自由指定元素並做增刪改；支持批量組圖輸出，用於故事板/素材包製作；同時強化高清輸出與細節表現。

## Seedance 2.0 把視頻做成 “可編排” 的工業工具

**報告對 Seedance 2.0 的定位更像 “工業化標準”：**基礎層面更強調物理規律合理、動作自然、指令理解精準、風格保持穩定；並突出三類能力——一致性優化（從人臉到服裝、字體細節、場景跳變等）；高難度運鏡與動作的可控復刻；創意模板/複雜特效的精準復刻。

更關鍵的是交互範式。研報認為 Seedance 2.0 用 “@素材名” 指定圖片/視頻/音頻用途，實質是在把黑盒式生成拆解成可控的生產流程：模型可以分別提取 @視頻的運鏡、@圖片的細節、@音頻的節奏，從而顯著降低 “廢片率”。

報告給出的使用與限制也更貼近 “生產約束”：支持圖片輸入≤9 張；視頻輸入≤3 個且總時長不超過 15 秒；音頻支持 MP3 上傳≤3 個且總時長不超過 15 秒；混合輸入總上限 12 個文件；生成時長≤15 秒（可選 4-15 秒）；並提供自帶音效/配樂輸出。入口上，“首尾幀” 和 “全能參考” 對應不同的素材組織方式。

## 字節走 “效率基建”，快手走 “專業敍事”，阿里更偏電商垂直

研報對競爭格局的判斷不太看 “跑分排名”，更在意廠商戰略分野。

報告把**字節的路線概括為低門檻、低成本的工具化、泛化能力，**類似 “剪映” 的高級形態，目標是降低全網內容生產成本並反哺生態；**快手可靈則押注物理模擬、複雜場景真實感與角色一致性，**更適合影視 Demo、電影劇情等對連貫性要求高的專業內容；**阿里千問在圖像模型高保真更新的方向上更偏垂直場景（電商），**強化商品數字化相關能力。

這三條路指向的不是同一種商業模式：一條追求規模化吞吐，一條追求高質量敍事交付，一條追求垂直行業的 “可用即生產”。

## 內容供給側革命：邊際成本向算力成本收斂，IP 反而更稀缺

商業化推演裏，報告把 “供給側革命” 講得很激進：**圖像與視頻基座能力雙重提升後，內容生產的邊際成本會越來越趨向算力成本。**

短期它更看好兩類變化：營銷/電商服務商的素材產出效率提高，帶來毛利改善；漫劇、短劇行業可能出現產能爆發。中長期則把矛盾推向 IP 端——當內容更容易被生產，稀缺性的定價會更集中到 IP 上：頭部 IP 及衍生品價值更高，腰部 IP 也可能通過 AI 視頻化實現價值重估。與此同時，擁有強算力基礎設施（雲）和閉環流量場景（平台）的巨頭，會更直接吃到推理側頻繁調用帶來的紅利。

### 相關股票

- [2 倍做多阿里巴巴 ETF - KraneShares (KBAB.US)](https://longbridge.com/zh-HK/quote/KBAB.US.md)
- [阿里巴巴-W (09988.HK)](https://longbridge.com/zh-HK/quote/09988.HK.md)
- [電子商務 ETF - GlobalX (EBIZ.US)](https://longbridge.com/zh-HK/quote/EBIZ.US.md)
- [阿里巴巴 (BABA.US)](https://longbridge.com/zh-HK/quote/BABA.US.md)
- [快手-W (01024.HK)](https://longbridge.com/zh-HK/quote/01024.HK.md)

## 相關資訊與研究

- [馬雲：AI 讓教育降低死記硬背 孩子有更多時間玩 學音樂、繪畫、運動](https://longbridge.com/zh-HK/news/277717016.md)
- [【AI】馬雲與阿里、螞蟻管理層現身杭州雲谷學校，交流 AI 發展與機遇](https://longbridge.com/zh-HK/news/277712914.md)
- [《輪壇中師》小米低位反彈，留意購 25383/沽 26045](https://longbridge.com/zh-HK/news/277862220.md)
- [IP 丨阿里北京開潮玩店 推 3 個自家 IP](https://longbridge.com/zh-HK/news/277875012.md)
- [阿里 CEO 吳泳銘內部郵件：已決定批准林俊暘辭職](https://longbridge.com/zh-HK/news/277870905.md)