
邊寫邊畫、邊説邊畫,混元圖像 2.0 來了!

騰訊於 5 月 16 日推出新一代圖像生成模型——混元圖像 2.0,提升圖像生成速度至 “毫秒級”。該模型實現了實時互動,用户在輸入提示詞時可實時看到圖像變化,準確率超過 95%。混元圖像 2.0 不僅在速度上有突破,圖像質量也顯著提升,避免了傳統 AIGC 圖像的 “AI 味”,提供更真實的質感和細節。
5 月 16 日,騰訊推出了其新一代圖像生成模型——混元圖像 2.0(Hunyuan Image 2.0),號稱將圖像生成速度提升至 “毫秒級”。
何謂 “毫秒級”?答案可能令人大吃一驚:當用户在輸入提示詞的同時,即可看到圖像的實時變化,所見即所得。
騰訊表示,得益於超高壓縮倍率的圖像編解碼器以及全新擴散架構,該模型參數量提升了一個數量級,實現了毫秒級響應速度,改變了傳統 “抽卡—等待—抽卡” 的方式,帶來交互體驗革新。
混元圖像 2.0 不僅實現了"邊説邊畫"的實時互動,還在模型架構和生成質量上實現了全面飛躍。在 GenEval 基準測試中,混元圖像 2.0 模型的準確率超過 95%,遠超其他同類模型,證明了其在複雜文本指令理解與生成方面的卓越能力。
交互革新:"邊打字邊出圖"的新範式
實際測試顯示,混元圖像 2.0 能夠實現"一邊打字一邊出圖"的完全實時反饋,用户輸入提示詞的過程中,畫面會隨着文字變化而實時調整。
例如輸入"人像攝影,愛因斯坦,背景是東方明珠電視塔,自拍角度",系統能夠實時生成符合描述的圖像,並在每個新元素添加時立即更新畫面。
人物的表情也可以瞬間改變,比如讓愛因斯坦吐舌頭:
除此之外,還可以連續對畫面增加或修改多個細節:一個女生,亞洲面孔,大眼睛,笑容燦爛,長頭髮,穿中式服裝,戴上帽子,手繪風格。
動漫風、編織風等,效果也都不錯:
這種實時反饋機制徹底打破了傳統"輸入提示詞→等待數秒→查看結果→調整重試"的繁瑣流程,大幅降低了創作門檻,使得創意表達更加流暢連貫。
超寫實畫質:真實感與細節的完美結合
除了速度,混元圖像 2.0 在圖像質量上也取得了顯著提升。
通過強化學習等算法以及引入大量人類美學知識對齊,生成的圖像有效避免了 AIGC 圖像的 “AI 味”,呈現出更真實的質感和更豐富的細節。
GenEval 評估基準測試顯示,騰訊混元圖像 2.0 模型準確率超過 95%,遠超同類模型。 這種高保真度的圖像生成能力,對需要高質量素材的行業(如廣告、設計等)有着巨大的吸引力。
圖像二次編輯:圖生圖的強大功能
混元圖像 2.0 不僅支持文字生成圖像,還提供了強大的 “圖生圖” 功能。可提取參考圖的主體或輪廓特徵,對現有圖像進行二次編輯。
這種能力極大地拓展了該模型的使用場景, 從給寵物生成個性化照片到專業的設計創作,用户都能輕鬆駕馭。 比如上傳一張貓咪照片,圖像參考強度設定為 92,讓貓咪眼睛變大,在草地上,戴上皇冠。
例如,用户可以上傳一張蛋糕照片,然後通過簡單指令將巧克力味改成草莓味,同時保持形狀和擺放與參考圖一致。

還可以實時對圖片進行風格的修改,添加小元素,對比和原圖的效果。比如下面的例子,通過一張小貓的圖片,生成 “家居貓、公主貓、古惑仔貓”。

此外,還支持一鍵為簡筆畫上色,以及"畫面優化"功能,自動改進構圖、景深和光影效果。
實時繪畫板:專業設計師的生產力工具
除了實時文生圖,混元圖像 2.0 還提供了實時繪畫板功能。
基於模型的實時生圖能力,用户在繪製線稿或調整參數時,預覽區同步生成上色效果,突破了傳統 “繪製 - 等待 - 修改” 的線性流程,可助力專業設計師的創作。
實時繪畫板支持多圖融合,用户上傳多圖後,可將多個草圖疊加至同一畫布自由創作,經過 AI 自動協調透視與光影,按照提示詞內容生成融合圖像,進一步豐富了 AI 生圖的交互體驗。

這一功能特別適合有初步設計想法但缺乏專業繪畫能力的用户。
技術進步:五大關鍵突破
據科技媒體量子位分析,混元圖像 2.0 的背後是五項關鍵技術突破:
更大的模型尺寸:相比前代產品,參數量提升了一個數量級,顯著提高了性能上限。
超高壓縮倍率的圖像編解碼器:騰訊混元團隊自研編解碼器大幅降低了圖像編碼序列長度,同時通過對信息瓶頸層的優化和強化對抗訓練,保證了細節生成能力。
多模態大語言模型作為文本編碼器:區別於 CLIP、T5 等傳統架構的淺層語義解析,通過適配多模態大語言模型,顯著提升了語義匹配能力,在 GenEval 等客觀指標上超越同類產品。
全尺度多維度強化學習後訓練:基於"慢思考"獎勵模型,通過通用後訓練與美學後訓練,有效提升圖片生成的真實感。
自研對抗蒸餾方案:基於隱空間一致性模型,將去噪軌跡上的任意點直接映射到軌跡生成樣本,實現少步高質量生成。
網友靈魂畫手上線體驗
有不少網友創作者發來了體驗:


圖源自創作者一隻小娜娜
社交平台 X 上的網友表示:
“令人印象深刻的創新!通過實時 AI 圖像生成重新定義創造力。”
還有人表示:
“虛幻\絕對虛幻。很想探索這個”
“實時圖像生成/修改有可能開闢一些瘋狂的新機會和想法。”
“這聽起來很神奇!速度和質量改變了遊戲規則。迫不及待地想看看大家用它創造了什麼!”
風險提示及免責條款
市場有風險,投資需謹慎。本文不構成個人投資建議,也未考慮到個別用户特殊的投資目標、財務狀況或需要。用户應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資,責任自負。






