阿里发布 Qwen2.5-Omni,号称全方位多模态感知、看听说写样样精通

华尔街见闻
2025.03.26 18:56
portai
我是 PortAI,我可以总结文章信息。

阿里巴巴发布了 Qwen2.5-Omni,这是其新一代多模态旗舰模型,能够处理文本、图像、音频和视频等多种输入形式,并实时生成文本与自然语音合成输出。该模型采用全新的 Thinker-Talker 架构,支持实时交互和精准同步,表现出卓越的音频能力和语音指令跟随能力。Qwen2.5-Omni 现已在多个平台上开源,用户可通过 Demo 体验其强大性能。