--- title: "多模態 “Deepseek 時刻” 下的大廠分化:字節拼 “效率”,快手攻 “專業”,阿里聚焦 “電商”!" type: "News" locale: "zh-HK" url: "https://longbridge.com/zh-HK/news/275709406.md" description: "華創證券表示,年初國產多模態模型密集更新,可靈 3.0 與 Seedance 2.0 等顯著提升了 “可控性”,標誌着 AI 視頻從娛樂向工業化生產跨越。通過壓低 “抽卡” 廢片率,視頻生產邊際成本向算力成本收斂。字節側重效率基建,快手深耕專業敍事,阿里發力垂直電商,共同推動內容供給側革命及 IP 價值重估。" datetime: "2026-02-12T06:35:39.000Z" locales: - [zh-CN](https://longbridge.com/zh-CN/news/275709406.md) - [en](https://longbridge.com/en/news/275709406.md) - [zh-HK](https://longbridge.com/zh-HK/news/275709406.md) --- > 支持的語言: [简体中文](https://longbridge.com/zh-CN/news/275709406.md) | [English](https://longbridge.com/en/news/275709406.md) # 多模態 “Deepseek 時刻” 下的大廠分化:字節拼 “效率”,快手攻 “專業”,阿里聚焦 “電商”! 年初這一波多模態更新來得很密:1 月 31 日快手把可靈(Kling)推到 3.0,2 月 7 日字節發佈 Seedance 2.0,2 月 10 日字節的 Seedream 5.0 和阿里的 Qwen-Image-2.0 又把 “文生圖/圖像編輯” 底座補了一刀。 華創證券研究所的姚蕾 12 日在報告裏的判斷很直接——視頻生成不再只是炫技,而是在往能進工作流的工具演化:“AI 視頻生成正在從盲盒式娛樂向精準工業化生產跨越。” 商業化遲遲起不來的癥結,歸到 “抽卡” 導致的邊際成本不可控:同樣的需求要反覆生成、反覆返工,廢片率吞掉時間和預算。 這次可靈 3.0 和 Seedance 2.0 的升級重點,不是單純拼畫質,而是把可控性抬到優先級更高的位置:跨鏡頭主體一致性、複雜指令的語義遵循、以及 “生成後還能改” 的編輯能力,合在一起去壓低廢片率。研報的結論是:技術跨越讓 AI 視頻具備進入規模化 B 端工作流的基礎,電商廣告、短劇/漫劇製作會更早感受到衝擊。 往下推,報告把影響拆成兩層:一層是產品路線分化——**字節更像在做 “效率基建”,快手更偏 “專業敍事”**;另一層是供給側革命重算成本結構——**內容生產的邊際成本越來越像算力成本。**對應到投資線索,研報把受益方向落到內容 IP、內容版權、AI 視頻工具/模型,以及雲與平台的推理側需求上。 ## 真正被解決的,是 “抽卡” 帶來的不可控成本 報告反覆強調一個邏輯鏈:過去 AI 視頻難以商用,不是 “做不出來”,而是 “做出來太不穩”。同樣的腳本、同樣的素材和提示詞,成片質量波動大,逼着創作者用更多輪生成去賭結果,邊際成本就失控了。 **報告認為新一代模型的意義在於把 “生成能力” 往後放了一位,把 “可控性” 放到前台:**通過原生多模態架構、指令對齊,以及對主體一致性/語義遵循的強化,把廢片率壓下去,整體視頻生產成本才會跟着掉下來。商業化的門檻因此被重新劃線——從 “能不能做” 變成 “能不能穩定交付”。 ## 可靈 3.0 押注 “大片感”:物理擬真與長邏輯敍事更優先 研報把可靈 3.0 的關鍵詞歸為兩件事:**基礎能力的系統升級,以及生成與編輯的一體化(Omni)。** 在視頻側,可靈 3.0 的升級點主要落在:多鏡頭/連續動作場景下的主體一致性更強;複雜文本指令解析更細;多人同框時的指代混亂被緩解,並強調了 “文本與視覺角色精準映射”(包括多語種、方言口音演繹與口型神態自然)。 Omni 模式是另一個被重點拿出來講的變化:在已生成內容基礎上做局部可控修改,減少 “推倒重來”。報告還提到兩項更偏專業創作的能力:一是可創建視頻主體(提取角色特徵與原聲音色,做精準口型匹配與驅動);二是原生自定義分鏡能力,並把單次生成時長提升至 15 秒,允許在鏡頭級別指定時長、景別、視角、敍事內容和運鏡方式。 圖片側,可靈圖片 3.0 也被當作 “工作流補全” 的一環:最多支持 10 張參考圖以鎖定主體輪廓、核心元素與色調基調;多參考圖可自由指定元素並做增刪改;支持批量組圖輸出,用於故事板/素材包製作;同時強化高清輸出與細節表現。 ## Seedance 2.0 把視頻做成 “可編排” 的工業工具 **報告對 Seedance 2.0 的定位更像 “工業化標準”:**基礎層面更強調物理規律合理、動作自然、指令理解精準、風格保持穩定;並突出三類能力——一致性優化(從人臉到服裝、字體細節、場景跳變等);高難度運鏡與動作的可控復刻;創意模板/複雜特效的精準復刻。 更關鍵的是交互範式。研報認為 Seedance 2.0 用 “@素材名” 指定圖片/視頻/音頻用途,實質是在把黑盒式生成拆解成可控的生產流程:模型可以分別提取 @視頻的運鏡、@圖片的細節、@音頻的節奏,從而顯著降低 “廢片率”。 報告給出的使用與限制也更貼近 “生產約束”:支持圖片輸入≤9 張;視頻輸入≤3 個且總時長不超過 15 秒;音頻支持 MP3 上傳≤3 個且總時長不超過 15 秒;混合輸入總上限 12 個文件;生成時長≤15 秒(可選 4-15 秒);並提供自帶音效/配樂輸出。入口上,“首尾幀” 和 “全能參考” 對應不同的素材組織方式。 ## 字節走 “效率基建”,快手走 “專業敍事”,阿里更偏電商垂直 研報對競爭格局的判斷不太看 “跑分排名”,更在意廠商戰略分野。 報告把**字節的路線概括為低門檻、低成本的工具化、泛化能力,**類似 “剪映” 的高級形態,目標是降低全網內容生產成本並反哺生態;**快手可靈則押注物理模擬、複雜場景真實感與角色一致性,**更適合影視 Demo、電影劇情等對連貫性要求高的專業內容;**阿里千問在圖像模型高保真更新的方向上更偏垂直場景(電商),**強化商品數字化相關能力。 這三條路指向的不是同一種商業模式:一條追求規模化吞吐,一條追求高質量敍事交付,一條追求垂直行業的 “可用即生產”。 ## 內容供給側革命:邊際成本向算力成本收斂,IP 反而更稀缺 商業化推演裏,報告把 “供給側革命” 講得很激進:**圖像與視頻基座能力雙重提升後,內容生產的邊際成本會越來越趨向算力成本。** 短期它更看好兩類變化:營銷/電商服務商的素材產出效率提高,帶來毛利改善;漫劇、短劇行業可能出現產能爆發。中長期則把矛盾推向 IP 端——當內容更容易被生產,稀缺性的定價會更集中到 IP 上:頭部 IP 及衍生品價值更高,腰部 IP 也可能通過 AI 視頻化實現價值重估。與此同時,擁有強算力基礎設施(雲)和閉環流量場景(平台)的巨頭,會更直接吃到推理側頻繁調用帶來的紅利。 ### 相關股票 - [2 倍做多阿里巴巴 ETF - KraneShares (KBAB.US)](https://longbridge.com/zh-HK/quote/KBAB.US.md) - [阿里巴巴-W (09988.HK)](https://longbridge.com/zh-HK/quote/09988.HK.md) - [電子商務 ETF - GlobalX (EBIZ.US)](https://longbridge.com/zh-HK/quote/EBIZ.US.md) - [阿里巴巴 (BABA.US)](https://longbridge.com/zh-HK/quote/BABA.US.md) - [快手-W (01024.HK)](https://longbridge.com/zh-HK/quote/01024.HK.md) ## 相關資訊與研究 - [馬雲:AI 讓教育降低死記硬背 孩子有更多時間玩 學音樂、繪畫、運動](https://longbridge.com/zh-HK/news/277717016.md) - [【AI】馬雲與阿里、螞蟻管理層現身杭州雲谷學校,交流 AI 發展與機遇](https://longbridge.com/zh-HK/news/277712914.md) - [《輪壇中師》小米低位反彈,留意購 25383/沽 26045](https://longbridge.com/zh-HK/news/277862220.md) - [IP 丨阿里北京開潮玩店 推 3 個自家 IP](https://longbridge.com/zh-HK/news/277875012.md) - [阿里 CEO 吳泳銘內部郵件:已決定批准林俊暘辭職](https://longbridge.com/zh-HK/news/277870905.md)