阿里一次发布 3 款大模型:全模态 Qwen3-Omni 和图像编辑大模型 Qwen-Image-Edit-2509 和 Qwen3-TTS

华尔街见闻
2025.09.23 02:10
portai
我是 PortAI,我可以总结文章信息。

阿里巴巴最近发布了三款大模型,包括开源的全模态大模型 Qwen3-Omni、图像编辑大模型 Qwen3-Image-Edit 和语音识别大模型 Qwen3-TTS。Qwen3-Omini-30B-A3B 是一个可以处理文本、图片、语音和视频的全模态模型,参数规模达到 300 亿,支持免费商用。与之前的版本相比,该模型在多项语音和多模态任务中表现优异,获得 22 个第一名。

几个小时前,阿里一次更新了 3 个大模型,分别是开源的全模态大模型 Qwen3-Omni、开源的图像编辑大模型 Qwen3-Image-Edit 和不开源的语音识别大模型 Qwen3-TTS。本次发布的 3 个模型均为多模态大模型,可以说阿里的大模型真的是全面开花,节奏很快!

免费可商用的全模态大模型:Qwen3-Omini-30B-A3B

Qwen3-Omini-30B-A3B 是阿里开源全模态大模型,所谓的全模态是指该模型可以处理文本、图片、语音和视频四种不同类型的数据,同时可以返回文本或者语音。

阿里上个版本的全模态大模型 Qwen2.5-Omni 是半年前发布的,是一个稠密的 70 亿参数规模的模型。本次阿里开源的是 MoE 架构的全模态大模型,总参数 300 亿,每次推理激活其中的 30 亿。

根据阿里 Qwen 团队的负责人 Junyang Lin 的描述。今年,阿里的语音团队花了很大的代价构建了大规模高质量的语音数据集,进而提升了阿里 ASR、TTS 模型的质量。然后,阿里将这些能力组合起来形成了这个全模态大模型。该模型是基于阿里 7 月升级之后的 Qwen3 模型打造,分为不带推理模式的版本和带推理模式的版本。

根据阿里官方的介绍,与 Qwen2.5-Omni、GPT-4o 和 Gemini-2.5-Flash 相比,Qwen3-Omini-30B-A3B 在 36 个语音和语音多模态(Audio-Visual)上获得 22 个第一十分强悍!

值得注意的是,本模型完全开源,开源协议是 Apache2.0,可以免费商用授权,开源地址和在线演示地址可以参考 DataLearnerAI 的 Qwen3-Omini-30B-A3B 模型信息卡地址:https://www.datalearner.com/ai-models/pretrained-models/Qwen3-Omni-30B-A3B

开源第一的图像编辑大模型 Qwen-Image-Edit-2509

阿里本次开源的另一个大模型是图像编辑大模型 Qwen-Image-Edit-2509,从名字也可以看到,这是一个升级版本的图像编辑大模型。

其实,上个月阿里才开源了 Qwen-Image-Edit 版本。这个版本已经在大模型匿名竞技场上获得了开源领域第一名的好成绩。时隔一个月阿里就开源了这个升级版本的模型,可谓十分敏捷!

简单来说,这次 Qwen-Image-Edit-2509 升级主要有三大块:

  1. 现在能玩多图了! 之前主要处理单张图,现在新版学会了 “拼图” 大法。你可以把好几张图一起扔给它,让它帮你处理。比如把两个人 P 到一起,或者把人 P 到某个产品旁边,玩法更多了。
  2. P 单张图的效果更逼真、更一致了! 这是个大改进,尤其是:
    • P 人像更稳了 现在给人换造型、换风格,脸不容易崩了,能很好地保住 “这是同一个人” 的感觉。
    • P 商品更准了 修改商品海报时,产品本身的样子保持得更好了,不会变得面目全非。
    • P 文字更强了 不光能改文字内容,现在连字体、颜色、质感(比如做成金属字)也能一起改了。
  3. 自带 “控制开关”(ControlNet):这个对懂行的朋友是福音!现在它原生就支持用深度图、线稿、骨骼点图这些 “指引图” 来精确控制生成效果,不用再折腾了,出图更可控。

总之,就是功能更强,效果更自然,可控性也更高了!在大模型匿名竞技场的 Image Edit Arena 的评测对比上,全球网友匿名投票结果中,8 月份的 Qwen-Image-Edit 就是全球开源模型的第一名,本次升级的 Qwen-Image-Edit-2509 应该也会有更靓眼的表现!

数据来源:https://www.datalearner.com/leaderboards/category/image-edit

最最重要的是,该模型也是免费商用开源协议,具体的开源地址和在线体验地址也可以参考 DataLearnerAI 的大模型信息卡:https://www.datalearner.com/ai-models/pretrained-models/Qwen-Image-Edit-2509

不开源但是很便宜的语音识别大模型 Qwen3-TTS-Flash

除了上述 2 个开源模型外,本次阿里还发布了一个收费模型 Qwen3-TTS-Flash。

前面也说过,今年阿里的语音团队花了很大代价构建了高质量的语音数据集,其最重要的产出就是语音识别和语音合成大模型。2025 年 9 月 8 日,阿里发布了 Qwen3-ASR 模型,语音识别错误率低于 GPT-4o 和 Gemini 2.5 Pro!也是一个不开源的模型。

本次阿里再次发布语音合成模型 Qwen3-TTS-Flash,其最大的特点应该是说话带着情感,声音更像真人,在专业的语音合成稳定性测试中,其结果已经超过了 SeedTTS、MiniMax 甚至 GPT-4o-Audio-Preview 这些知名对手,达到了目前最好的水平。

此外,Qwen3-TTS-Flash 支持 17 中声音,每种声音都支持 10 种不同的语言,包括中文、英文、韩语、德语、意大利语、西班牙语、法语、俄语等。此外,它也支持很多中文和英文的方言,包括粤语、四川话、美式口音、英式口音等。

Qwen3-TTS-Flash 不开源,API 价格是 1 万个字符 8 毛钱(人民币),最大支持 600 个字符的输入(官方目前只有中文价格介绍,这个字符可能是 tokens)。

Qwen3-TTS-Flash 的其它信息也可参考 DataLearnerAI 模型信息卡:https://www.datalearner.com/ai-models/pretrained-models/Qwen3-TTS-Flash

总结

整体来看,这次阿里一次性放出三个多模态模型,其实透露出一个很明确的战略思路:一边通过开源的全模态和图像编辑模型来做生态,把开发者和社区都拉进来;另一边,则用闭源但低价的语音合成模型来直接跑商业化,形成 “开源做势能、闭源兑现金” 的两条线并行。

阿里开源的模型质量很高,赢得了很好的声誉。目前看他们的节奏也非常快,每个月都有大量的新模型出现,十分值得关注。在很多细分领域,其开源的模型都获得了非常好的结果。

风险提示及免责条款

市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。