<p>今天，我們發佈了 Qwen2.5-Omni，Qwen 模型家族中新一代端到端多模態旗艦模型。該模型專為全方位多模態感知設計，能夠無縫處理文本、圖像、音頻和視頻等多種輸入形式，並通過實時流式響應同時生成文本與自然語音合成輸出。</p>
<p>該模型現已在 Hugging Face、ModelScope、DashScope 和 GitHub 上開源開放，你可以通過我們的 Demo 體驗互動功能，或是通過 Qwen Chat 直接發起語音或視頻聊天，沉浸式體驗全新的 Qwen2.5-Omni 模型強大性能。</p>
<section>
<section>
<p>主要特點</p>
</section>
<section>
<section>
<ul>
<li>
<p>全能創新架構：我們提出了一種全新的 Thinker-Talker 架構，這是一種端到端的多模態模型，旨在支持文本/圖像/音頻/視頻的跨模態理解，同時以流式方式生成文本和自然語音響應。我們提出了一種新的位置編碼技術，稱為 TMRoPE（Time-aligned Multimodal RoPE），通過時間軸對齊實現視頻與音頻輸入的精準同步。</p>
</li>
<li>
<p>實時音視頻交互：架構旨在支持完全實時交互，支持分塊輸入和即時輸出。</p>
</li>
<li>
<p>自然流暢的語音生成：在語音生成的自然性和穩定性方面超越了許多現有的流式和非流式替代方案。</p>
</li>
<li>
<p>全模態性能優勢：在同等規模的單模態模型進行基準測試時，表現出卓越的性能。Qwen2.5-Omni 在音頻能力上優於類似大小的 Qwen2-Audio，並與 Qwen2.5-VL-7B 保持同等水平。</p>
</li>
<li>
<p>卓越的端到端語音指令跟隨能力：Qwen2.5-Omni 在端到端語音指令跟隨方面表現出與文本輸入處理相媲美的效果，在 MMLU 通用知識理解和 GSM8K 數學推理等基準測試中表現優異。</p>
</li>
</ul>
</section>
</section>
</section>
<section>
<div id="page-content">
<div id="js_mpvedio_wrapper_wxv_3916145383243464704">
<div>
<div>
<div>
<div>
<div>
<div id="js_mpvedio_1743014247435_23962263299">
<div>
<div> </div>
<div>
<div>
<div> </div>
</div>
</div>
</div>
</div>
</div>
</div>
</div>
</div>
</div>
</div>
</div>
</section>
<p style="text-align: center">Qwen2.5-Omni-7B demo</p>
<section>
<section>
<section>
<h2><strong>模型架構</strong></h2>
</section>
</section>
</section>
<p>Qwen2.5-Omni 採用 Thinker-Talker 雙核架構。Thinker 模塊如同大腦，負責處理文本、音頻、視頻等多模態輸入，生成高層語義表徵及對應文本內容；Talker 模塊則類似發聲器官，以流式方式接收 Thinker 實時輸出的語義表徵與文本，流暢合成離散語音單元。Thinker 基於 Transformer 解碼器架構，融合音頻/圖像編碼器進行特徵提取；Talker 則採用雙軌自迴歸 Transformer 解碼器設計，在訓練和推理過程中直接接收來自 Thinker 的高維表徵，並共享全部歷史上下文信息，形成端到端的統一模型架構。</p>
<section></section>
<section>
<p style="text-align: center"><img src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/c33abeb0-ea7a-4f8f-994d-2398fba92574.jpeg?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="1080" height="1008" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/c33abeb0-ea7a-4f8f-994d-2398fba92574.jpeg"/></p>
<p style="text-align: center">模型架構圖</p>
</section>
<section>
<section>
<section>
<p><strong>模型性能</strong></p>
</section>
<section></section>
</section>
</section>
<section>
<p> </p>
</section>
<p>Qwen2.5-Omni 在包括圖像，音頻，音視頻等各種模態下的表現都優於類似大小的單模態模型以及封閉源模型，例如 Qwen2.5-VL-7B、Qwen2-Audio 和 Gemini-1.5-pro。</p>
<p>在多模態任務 OmniBench，Qwen2.5-Omni 達到了 SOTA 的表現。此外，在單模態任務中，Qwen2.5-Omni 在多個領域中表現優異，包括語音識別（Common Voice）、翻譯（CoVoST2）、音頻理解（MMAU）、圖像推理（MMMU、MMStar）、視頻理解（MVBench）以及語音生成（Seed-tts-eval 和主觀自然聽感）。</p>
<section></section>
<section>
<section><img src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/fc932009-d84f-4fbe-b314-c678b155db25.jpeg?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="1259" height="959" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/fc932009-d84f-4fbe-b314-c678b155db25.jpeg"/></section>
</section>
<section>
<p style="text-align: center">模型性能圖</p>
</section>
<section>
<section>
<section>
<h2><strong>下一步</strong></h2>
</section>
</section>
</section>
<p>我們期待聽到您的反饋，並看到您使用 Qwen2.5-Omni 開發的創新應用。在不久的將來，我們將着力增強模型對語音指令的遵循能力，並提升音視頻協同理解能力。更值得期待的是，我們將持續拓展多模態能力邊界，以發展成為一個全面的通用模型！</p>
<p>體驗方式</p>
<section>
<section>
<section>
<ul>
<li>
<p>Qwen Chat：https://chat.qwenlm.ai</p>
</li>
<li>
<p>Hugging Face：https://huggingface.co/Qwen/Qwen2.5-Omni-7B</p>
</li>
<li>
<p>ModelScope：https://modelscope.cn/models/Qwen/Qwen2.5-Omni-7B</p>
</li>
<li>
<p>DashScope：https://help.aliyun.com/zh/model-studio/user-guide/qwen-omni</p>
</li>
<li>
<p>GitHub：https://github.com/QwenLM/Qwen2.5-Omni</p>
</li>
</ul>
<ul>
<li>
<p>Demo 體驗：https://modelscope.cn/studios/Qwen/Qwen2.5-Omni-Demo</p>
</li>
</ul>
<p><span style="color: #808080">本文來源：通義千問 Qwen，原文標題：《Qwen2.5-Omni：看，聽，説，寫，樣樣精通！》。</span></p>
</section>
</section>
</section><div>風險提示及免責條款</div>
          <div>
            市場有風險，投資需謹慎。本文不構成個人投資建議，也未考慮到個別用户特殊的投資目標、財務狀況或需要。用户應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資，責任自負。
          </div>

阿里巴巴

阿里巴巴-W

<p>阿里巴巴發佈了 Qwen2.5-Omni，這是其新一代多模態旗艦模型，能夠處理文本、圖像、音頻和視頻等多種輸入形式，並實時生成文本與自然語音合成輸出。該模型採用全新的 Thinker-Talker 架構，支持實時交互和精準同步，表現出卓越的音頻能力和語音指令跟隨能力。Qwen2.5-Omni 現已在多個平台上開源，用户可通過 Demo 體驗其強大性能。</p>

- 發佈了 Qwen2.5-Omni，支持多模態輸入處理。  
- 採用 Thinker-Talker 架構，實時生成文本與語音。  
- 在多模態任務中表現優異，達到 SOTA 水平。  

阿里發佈 Qwen2.5-Omni，號稱全方位多模態感知、看聽説寫樣樣精通