<p>今天，我们发布了 Qwen2.5-Omni，Qwen 模型家族中新一代端到端多模态旗舰模型。该模型专为全方位多模态感知设计，能够无缝处理文本、图像、音频和视频等多种输入形式，并通过实时流式响应同时生成文本与自然语音合成输出。</p>
<p>该模型现已在 Hugging Face、ModelScope、DashScope 和 GitHub 上开源开放，你可以通过我们的 Demo 体验互动功能，或是通过 Qwen Chat 直接发起语音或视频聊天，沉浸式体验全新的 Qwen2.5-Omni 模型强大性能。</p>
<section>
<section>
<p>主要特点</p>
</section>
<section>
<section>
<ul>
<li>
<p>全能创新架构：我们提出了一种全新的 Thinker-Talker 架构，这是一种端到端的多模态模型，旨在支持文本/图像/音频/视频的跨模态理解，同时以流式方式生成文本和自然语音响应。我们提出了一种新的位置编码技术，称为 TMRoPE（Time-aligned Multimodal RoPE），通过时间轴对齐实现视频与音频输入的精准同步。</p>
</li>
<li>
<p>实时音视频交互：架构旨在支持完全实时交互，支持分块输入和即时输出。</p>
</li>
<li>
<p>自然流畅的语音生成：在语音生成的自然性和稳定性方面超越了许多现有的流式和非流式替代方案。</p>
</li>
<li>
<p>全模态性能优势：在同等规模的单模态模型进行基准测试时，表现出卓越的性能。Qwen2.5-Omni 在音频能力上优于类似大小的 Qwen2-Audio，并与 Qwen2.5-VL-7B 保持同等水平。</p>
</li>
<li>
<p>卓越的端到端语音指令跟随能力：Qwen2.5-Omni 在端到端语音指令跟随方面表现出与文本输入处理相媲美的效果，在 MMLU 通用知识理解和 GSM8K 数学推理等基准测试中表现优异。</p>
</li>
</ul>
</section>
</section>
</section>
<section>
<div id="page-content">
<div id="js_mpvedio_wrapper_wxv_3916145383243464704">
<div>
<div>
<div>
<div>
<div>
<div id="js_mpvedio_1743014247435_23962263299">
<div>
<div> </div>
<div>
<div>
<div> </div>
</div>
</div>
</div>
</div>
</div>
</div>
</div>
</div>
</div>
</div>
</div>
</section>
<p style="text-align: center">Qwen2.5-Omni-7B demo</p>
<section>
<section>
<section>
<h2><strong>模型架构</strong></h2>
</section>
</section>
</section>
<p>Qwen2.5-Omni 采用 Thinker-Talker 双核架构。Thinker 模块如同大脑，负责处理文本、音频、视频等多模态输入，生成高层语义表征及对应文本内容；Talker 模块则类似发声器官，以流式方式接收 Thinker 实时输出的语义表征与文本，流畅合成离散语音单元。Thinker 基于 Transformer 解码器架构，融合音频/图像编码器进行特征提取；Talker 则采用双轨自回归 Transformer 解码器设计，在训练和推理过程中直接接收来自 Thinker 的高维表征，并共享全部历史上下文信息，形成端到端的统一模型架构。</p>
<section></section>
<section>
<p style="text-align: center"><img src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/c33abeb0-ea7a-4f8f-994d-2398fba92574.jpeg?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="1080" height="1008" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/c33abeb0-ea7a-4f8f-994d-2398fba92574.jpeg"/></p>
<p style="text-align: center">模型架构图</p>
</section>
<section>
<section>
<section>
<p><strong>模型性能</strong></p>
</section>
<section></section>
</section>
</section>
<section>
<p> </p>
</section>
<p>Qwen2.5-Omni 在包括图像，音频，音视频等各种模态下的表现都优于类似大小的单模态模型以及封闭源模型，例如 Qwen2.5-VL-7B、Qwen2-Audio 和 Gemini-1.5-pro。</p>
<p>在多模态任务 OmniBench，Qwen2.5-Omni 达到了 SOTA 的表现。此外，在单模态任务中，Qwen2.5-Omni 在多个领域中表现优异，包括语音识别（Common Voice）、翻译（CoVoST2）、音频理解（MMAU）、图像推理（MMMU、MMStar）、视频理解（MVBench）以及语音生成（Seed-tts-eval 和主观自然听感）。</p>
<section></section>
<section>
<section><img src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/fc932009-d84f-4fbe-b314-c678b155db25.jpeg?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="1259" height="959" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/fc932009-d84f-4fbe-b314-c678b155db25.jpeg"/></section>
</section>
<section>
<p style="text-align: center">模型性能图</p>
</section>
<section>
<section>
<section>
<h2><strong>下一步</strong></h2>
</section>
</section>
</section>
<p>我们期待听到您的反馈，并看到您使用 Qwen2.5-Omni 开发的创新应用。在不久的将来，我们将着力增强模型对语音指令的遵循能力，并提升音视频协同理解能力。更值得期待的是，我们将持续拓展多模态能力边界，以发展成为一个全面的通用模型！</p>
<p>体验方式</p>
<section>
<section>
<section>
<ul>
<li>
<p>Qwen Chat：https://chat.qwenlm.ai</p>
</li>
<li>
<p>Hugging Face：https://huggingface.co/Qwen/Qwen2.5-Omni-7B</p>
</li>
<li>
<p>ModelScope：https://modelscope.cn/models/Qwen/Qwen2.5-Omni-7B</p>
</li>
<li>
<p>DashScope：https://help.aliyun.com/zh/model-studio/user-guide/qwen-omni</p>
</li>
<li>
<p>GitHub：https://github.com/QwenLM/Qwen2.5-Omni</p>
</li>
</ul>
<ul>
<li>
<p>Demo 体验：https://modelscope.cn/studios/Qwen/Qwen2.5-Omni-Demo</p>
</li>
</ul>
<p><span style="color: #808080">本文来源：通义千问 Qwen，原文标题：《Qwen2.5-Omni：看，听，说，写，样样精通！》。</span></p>
</section>
</section>
</section><div>风险提示及免责条款</div>
          <div>
            市场有风险，投资需谨慎。本文不构成个人投资建议，也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。
          </div>

阿里巴巴

阿里巴巴-W

<p>阿里巴巴发布了 Qwen2.5-Omni，这是其新一代多模态旗舰模型，能够处理文本、图像、音频和视频等多种输入形式，并实时生成文本与自然语音合成输出。该模型采用全新的 Thinker-Talker 架构，支持实时交互和精准同步，表现出卓越的音频能力和语音指令跟随能力。Qwen2.5-Omni 现已在多个平台上开源，用户可通过 Demo 体验其强大性能。</p>

- 发布了 Qwen2.5-Omni，支持多模态输入处理。  
- 采用 Thinker-Talker 架构，实时生成文本与语音。  
- 在多模态任务中表现优异，达到 SOTA 水平。  

阿里发布 Qwen2.5-Omni，号称全方位多模态感知、看听说写样样精通