<div id="readability-page-1">5 月 16 日，騰訊推出了其新一代圖像生成模型——混元圖像 2.0（Hunyuan Image 2.0），號稱將圖像生成速度提升至 “毫秒級”。 何謂 “毫秒級”？答案可能令人大吃一驚：當用户在輸入提示詞的同時，即可看到圖像的實時變化，所見即所得。 騰訊表示，得益於超高壓縮倍率的圖像編解碼器以及全新擴散架構，該模型參數量提升了一個數量級，實現了毫秒級響應速度，改變了傳統 “抽卡—等待—抽卡” 的方式，帶來交互體驗革新。 混元圖像 2.0 不僅實現了&#34;邊説邊畫&#34;的實時互動，還在模型架構和生成質量上實現了全面飛躍。在 GenEval 基準測試中，混元圖像 2.0 模型的準確率超過 95%，遠超其他同類模型，證明了其在複雜文本指令理解與生成方面的卓越能力。 <h2>交互革新：&#34;邊打字邊出圖&#34;的新範式</h2> 實際測試顯示，混元圖像 2.0 能夠實現&#34;一邊打字一邊出圖&#34;的完全實時反饋，用户輸入提示詞的過程中，畫面會隨着文字變化而實時調整。 例如輸入&#34;人像攝影，愛因斯坦，背景是東方明珠電視塔，自拍角度&#34;，系統能夠實時生成符合描述的圖像，並在每個新元素添加時立即更新畫面。 <img src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/730d4dd3-ac7e-404c-a5b4-be227025d499?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="1079" height="564" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/730d4dd3-ac7e-404c-a5b4-be227025d499"/> 人物的表情也可以瞬間改變，比如讓愛因斯坦吐舌頭： <img src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/9874c5e2-53ab-4f27-8bde-50386f70ecad?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="799" height="649" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/9874c5e2-53ab-4f27-8bde-50386f70ecad"/> 除此之外，還可以連續對畫面增加或修改多個細節：一個女生，亞洲面孔，大眼睛，笑容燦爛，長頭髮，穿中式服裝，戴上帽子，手繪風格。 <img src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/6b0b8dc2-7890-4e32-872a-58de6db7524e?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="772" height="687" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/6b0b8dc2-7890-4e32-872a-58de6db7524e"/> 動漫風、編織風等，效果也都不錯： <img src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/3ff89e5b-ca75-4578-bcb1-199b7b6b46e4?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="1024" height="546" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/3ff89e5b-ca75-4578-bcb1-199b7b6b46e4"/> 這種實時反饋機制徹底打破了傳統&#34;輸入提示詞→等待數秒→查看結果→調整重試&#34;的繁瑣流程，大幅降低了創作門檻，使得創意表達更加流暢連貫。 <h2>超寫實畫質：真實感與細節的完美結合</h2> 除了速度，混元圖像 2.0 在圖像質量上也取得了顯著提升。 通過強化學習等算法以及引入大量人類美學知識對齊，生成的圖像有效避免了 AIGC 圖像的 “AI 味”，呈現出更真實的質感和更豐富的細節。 GenEval 評估基準測試顯示，騰訊混元圖像 2.0 模型準確率超過 95%，遠超同類模型。 這種高保真度的圖像生成能力，對需要高質量素材的行業（如廣告、設計等）有着巨大的吸引力。 <h2>圖像二次編輯：圖生圖的強大功能</h2> 混元圖像 2.0 不僅支持文字生成圖像，還提供了強大的 “圖生圖” 功能。可提取參考圖的主體或輪廓特徵，對現有圖像進行二次編輯。 這種能力極大地拓展了該模型的使用場景， 從給寵物生成個性化照片到專業的設計創作，用户都能輕鬆駕馭。 比如上傳一張貓咪照片，圖像參考強度設定為 92，讓貓咪眼睛變大，在草地上，戴上皇冠。 <img src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/c15bee1f-3d0e-479d-b913-07ef16a5ff9f?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="962" height="742" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/c15bee1f-3d0e-479d-b913-07ef16a5ff9f"/> 例如，用户可以上傳一張蛋糕照片，然後通過簡單指令將巧克力味改成草莓味，同時保持形狀和擺放與參考圖一致。 <img src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/92d9a5db-72e6-456f-ac47-e08e82b5746e.png?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="1024" height="863" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/92d9a5db-72e6-456f-ac47-e08e82b5746e.png"/> 還可以實時對圖片進行風格的修改，添加小元素，對比和原圖的效果。比如下面的例子，通過一張小貓的圖片，生成 “家居貓、公主貓、古惑仔貓”。 此外，還支持一鍵為簡筆畫上色，以及&#34;畫面優化&#34;功能，自動改進構圖、景深和光影效果。 <img src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/43cb5e62-479b-4891-9ab5-3ea0a201b158?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="936" height="610" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/43cb5e62-479b-4891-9ab5-3ea0a201b158"/> <h2>實時繪畫板：專業設計師的生產力工具</h2> 除了實時文生圖，混元圖像 2.0 還提供了實時繪畫板功能。 基於模型的實時生圖能力，用户在繪製線稿或調整參數時，預覽區同步生成上色效果，突破了傳統 “繪製 - 等待 - 修改” 的線性流程，可助力專業設計師的創作。 <img src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/b2a20aa9-3acc-4eaf-ad25-5e69bfcc43bc?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="910" height="606" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/b2a20aa9-3acc-4eaf-ad25-5e69bfcc43bc"/> 實時繪畫板支持多圖融合，用户上傳多圖後，可將多個草圖疊加至同一畫布自由創作，經過 AI 自動協調透視與光影，按照提示詞內容生成融合圖像，進一步豐富了 AI 生圖的交互體驗。 <img src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/40b6c7f6-241e-4303-8cc7-f99ade32e0a4.png?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="1024" height="357" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/40b6c7f6-241e-4303-8cc7-f99ade32e0a4.png"/> 這一功能特別適合有初步設計想法但缺乏專業繪畫能力的用户。 <h2 id="56e09781">技術進步：五大關鍵突破</h2> 據科技媒體量子位分析，混元圖像 2.0 的背後是五項關鍵技術突破： <blockquote> <ol> <li> 更大的模型尺寸：相比前代產品，參數量提升了一個數量級，顯著提高了性能上限。 </li> <li> 超高壓縮倍率的圖像編解碼器：騰訊混元團隊自研編解碼器大幅降低了圖像編碼序列長度，同時通過對信息瓶頸層的優化和強化對抗訓練，保證了細節生成能力。 </li> <li> 多模態大語言模型作為文本編碼器：區別於 CLIP、T5 等傳統架構的淺層語義解析，通過適配多模態大語言模型，顯著提升了語義匹配能力，在 GenEval 等客觀指標上超越同類產品。 </li> <li> 全尺度多維度強化學習後訓練：基於&#34;慢思考&#34;獎勵模型，通過通用後訓練與美學後訓練，有效提升圖片生成的真實感。 </li> <li> 自研對抗蒸餾方案：基於隱空間一致性模型，將去噪軌跡上的任意點直接映射到軌跡生成樣本，實現少步高質量生成。 </li> </ol> </blockquote> <h2>網友靈魂畫手上線體驗</h2> 有不少網友創作者發來了體驗： <img src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/5d7baff0-4b82-4383-b8ba-b2afe2122e07.png?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="1024" height="713" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/5d7baff0-4b82-4383-b8ba-b2afe2122e07.png"/> <img src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/6f10268b-751e-4372-8e8d-ce90ae2a2190.png?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="1024" height="819" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/6f10268b-751e-4372-8e8d-ce90ae2a2190.png"/> <blockquote> <img src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/99c5c350-73e0-4982-94b2-fae63a5eb6e3.png?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="1024" height="732" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/99c5c350-73e0-4982-94b2-fae63a5eb6e3.png"/> 圖源自創作者一隻小娜娜 </blockquote> 社交平台 X 上的網友表示： <blockquote> “令人印象深刻的創新！通過實時 AI 圖像生成重新定義創造力。” <img src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/1df1c337-d34b-4e70-acd1-69961b38b3ae.png?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="1024" height="206" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/1df1c337-d34b-4e70-acd1-69961b38b3ae.png"/> </blockquote> 還有人表示： <blockquote> “虛幻\絕對虛幻。很想探索這個” <img src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/2877c29c-53e1-4293-807a-d60ad2a65dcc.png?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="1024" height="295" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/2877c29c-53e1-4293-807a-d60ad2a65dcc.png"/> </blockquote> <blockquote> “實時圖像生成/修改有可能開闢一些瘋狂的新機會和想法。” <img src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/4935d2fa-fcc3-426f-8ab1-13daeac8e2fd.png?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="1024" height="286" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/4935d2fa-fcc3-426f-8ab1-13daeac8e2fd.png"/> </blockquote> <blockquote> “這聽起來很神奇！速度和質量改變了遊戲規則。迫不及待地想看看大家用它創造了什麼！” <img src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/5a8653a2-7781-4b8c-ad90-0b7ba4f5c816.png?x-oss-process=image/auto-orient,1/interlace,1/resize,w_1440,h_1440/quality,q_95/format,jpg" width="1024" height="209" original-src="https://imageproxy.pbkrs.com/https://wpimg-wscn.awtmt.com/5a8653a2-7781-4b8c-ad90-0b7ba4f5c816.png"/> </blockquote>風險提示及免責條款 市場有風險，投資需謹慎。本文不構成個人投資建議，也未考慮到個別用户特殊的投資目標、財務狀況或需要。用户應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資，責任自負。</div>

騰訊控股(ADR)

騰訊控股(ADS)

騰訊控股

騰訊於 5 月 16 日推出新一代圖像生成模型——混元圖像 2.0，提升圖像生成速度至 “毫秒級”。該模型實現了實時互動，用户在輸入提示詞時可實時看到圖像變化，準確率超過 95%。混元圖像 2.0 不僅在速度上有突破，圖像質量也顯著提升，避免了傳統 AIGC 圖像的 “AI 味”，提供更真實的質感和細節。

- 騰訊推出混元圖像 2.0，圖像生成速度提升至 “毫秒級”。  
- 模型參數量提升，準確率超過 95%，實現實時互動與高質量生成。  
- 支持圖生圖功能，拓展應用場景，降低創作門檻。  

邊寫邊畫、邊説邊畫，混元圖像 2.0 來了！