商湯發佈 NEO-unify 技術博客,探索原生多模態統一架構

36Kr
2026.03.06 08:42
36 氪獲悉,商湯科技聯合南洋理工大學發佈 NEO-unify 預覽版——一種摒棄傳統視覺編碼器與變分自編碼器、直接從像素與文本中學習的端到端原生架構。其在圖像重建任務中接近 Flux VAE 性能,圖像編輯基準達 3.32 分。研究顯示,該架構理解與生成協同提升,數據訓練效率優於現有方案。