商汤发布 NEO-unify 技术博客,探索原生多模态统一架构

36Kr
2026.03.06 08:42
36 氪获悉,商汤科技联合南洋理工大学发布 NEO-unify 预览版——一种摒弃传统视觉编码器与变分自编码器、直接从像素与文本中学习的端到端原生架构。其在图像重建任务中接近 Flux VAE 性能,图像编辑基准达 3.32 分。研究显示,该架构理解与生成协同提升,数据训练效率优于现有方案。