
阿里一次發佈 3 款大模型:全模態 Qwen3-Omni 和圖像編輯大模型 Qwen-Image-Edit-2509 和 Qwen3-TTS

阿里巴巴最近發佈了三款大模型,包括開源的全模態大模型 Qwen3-Omni、圖像編輯大模型 Qwen3-Image-Edit 和語音識別大模型 Qwen3-TTS。Qwen3-Omini-30B-A3B 是一個可以處理文本、圖片、語音和視頻的全模態模型,參數規模達到 300 億,支持免費商用。與之前的版本相比,該模型在多項語音和多模態任務中表現優異,獲得 22 個第一名。
幾個小時前,阿里一次更新了 3 個大模型,分別是開源的全模態大模型 Qwen3-Omni、開源的圖像編輯大模型 Qwen3-Image-Edit 和不開源的語音識別大模型 Qwen3-TTS。本次發佈的 3 個模型均為多模態大模型,可以説阿里的大模型真的是全面開花,節奏很快!

免費可商用的全模態大模型:Qwen3-Omini-30B-A3B
Qwen3-Omini-30B-A3B 是阿里開源全模態大模型,所謂的全模態是指該模型可以處理文本、圖片、語音和視頻四種不同類型的數據,同時可以返回文本或者語音。
阿里上個版本的全模態大模型 Qwen2.5-Omni 是半年前發佈的,是一個稠密的 70 億參數規模的模型。本次阿里開源的是 MoE 架構的全模態大模型,總參數 300 億,每次推理激活其中的 30 億。
根據阿里 Qwen 團隊的負責人 Junyang Lin 的描述。今年,阿里的語音團隊花了很大的代價構建了大規模高質量的語音數據集,進而提升了阿里 ASR、TTS 模型的質量。然後,阿里將這些能力組合起來形成了這個全模態大模型。該模型是基於阿里 7 月升級之後的 Qwen3 模型打造,分為不帶推理模式的版本和帶推理模式的版本。
根據阿里官方的介紹,與 Qwen2.5-Omni、GPT-4o 和 Gemini-2.5-Flash 相比,Qwen3-Omini-30B-A3B 在 36 個語音和語音多模態(Audio-Visual)上獲得 22 個第一十分強悍!

值得注意的是,本模型完全開源,開源協議是 Apache2.0,可以免費商用授權,開源地址和在線演示地址可以參考 DataLearnerAI 的 Qwen3-Omini-30B-A3B 模型信息卡地址:https://www.datalearner.com/ai-models/pretrained-models/Qwen3-Omni-30B-A3B
開源第一的圖像編輯大模型 Qwen-Image-Edit-2509
阿里本次開源的另一個大模型是圖像編輯大模型 Qwen-Image-Edit-2509,從名字也可以看到,這是一個升級版本的圖像編輯大模型。
其實,上個月阿里才開源了 Qwen-Image-Edit 版本。這個版本已經在大模型匿名競技場上獲得了開源領域第一名的好成績。時隔一個月阿里就開源了這個升級版本的模型,可謂十分敏捷!
簡單來説,這次 Qwen-Image-Edit-2509 升級主要有三大塊:
- 現在能玩多圖了! 之前主要處理單張圖,現在新版學會了 “拼圖” 大法。你可以把好幾張圖一起扔給它,讓它幫你處理。比如把兩個人 P 到一起,或者把人 P 到某個產品旁邊,玩法更多了。
- P 單張圖的效果更逼真、更一致了! 這是個大改進,尤其是:
- P 人像更穩了 現在給人換造型、換風格,臉不容易崩了,能很好地保住 “這是同一個人” 的感覺。
- P 商品更準了 修改商品海報時,產品本身的樣子保持得更好了,不會變得面目全非。
- P 文字更強了 不光能改文字內容,現在連字體、顏色、質感(比如做成金屬字)也能一起改了。
- 自帶 “控制開關”(ControlNet):這個對懂行的朋友是福音!現在它原生就支持用深度圖、線稿、骨骼點圖這些 “指引圖” 來精確控制生成效果,不用再折騰了,出圖更可控。
總之,就是功能更強,效果更自然,可控性也更高了!在大模型匿名競技場的 Image Edit Arena 的評測對比上,全球網友匿名投票結果中,8 月份的 Qwen-Image-Edit 就是全球開源模型的第一名,本次升級的 Qwen-Image-Edit-2509 應該也會有更靚眼的表現!

數據來源:https://www.datalearner.com/leaderboards/category/image-edit
最最重要的是,該模型也是免費商用開源協議,具體的開源地址和在線體驗地址也可以參考 DataLearnerAI 的大模型信息卡:https://www.datalearner.com/ai-models/pretrained-models/Qwen-Image-Edit-2509
不開源但是很便宜的語音識別大模型 Qwen3-TTS-Flash
除了上述 2 個開源模型外,本次阿里還發布了一個收費模型 Qwen3-TTS-Flash。
前面也説過,今年阿里的語音團隊花了很大代價構建了高質量的語音數據集,其最重要的產出就是語音識別和語音合成大模型。2025 年 9 月 8 日,阿里發佈了 Qwen3-ASR 模型,語音識別錯誤率低於 GPT-4o 和 Gemini 2.5 Pro!也是一個不開源的模型。
本次阿里再次發佈語音合成模型 Qwen3-TTS-Flash,其最大的特點應該是説話帶着情感,聲音更像真人,在專業的語音合成穩定性測試中,其結果已經超過了 SeedTTS、MiniMax 甚至 GPT-4o-Audio-Preview 這些知名對手,達到了目前最好的水平。
此外,Qwen3-TTS-Flash 支持 17 中聲音,每種聲音都支持 10 種不同的語言,包括中文、英文、韓語、德語、意大利語、西班牙語、法語、俄語等。此外,它也支持很多中文和英文的方言,包括粵語、四川話、美式口音、英式口音等。
Qwen3-TTS-Flash 不開源,API 價格是 1 萬個字符 8 毛錢(人民幣),最大支持 600 個字符的輸入(官方目前只有中文價格介紹,這個字符可能是 tokens)。
Qwen3-TTS-Flash 的其它信息也可參考 DataLearnerAI 模型信息卡:https://www.datalearner.com/ai-models/pretrained-models/Qwen3-TTS-Flash
總結
整體來看,這次阿里一次性放出三個多模態模型,其實透露出一個很明確的戰略思路:一邊通過開源的全模態和圖像編輯模型來做生態,把開發者和社區都拉進來;另一邊,則用閉源但低價的語音合成模型來直接跑商業化,形成 “開源做勢能、閉源兑現金” 的兩條線並行。
阿里開源的模型質量很高,贏得了很好的聲譽。目前看他們的節奏也非常快,每個月都有大量的新模型出現,十分值得關注。在很多細分領域,其開源的模型都獲得了非常好的結果。
風險提示及免責條款
市場有風險,投資需謹慎。本文不構成個人投資建議,也未考慮到個別用户特殊的投資目標、財務狀況或需要。用户應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資,責任自負。

