36 氪获悉,商汤科技联合南洋理工大学发布 NEO-unify 预览版——一种摒弃传统视觉编码器与变分自编码器、直接从像素与文本中学习的端到端原生架构。其在图像重建任务中接近 Flux VAE 性能,图像编辑基准达 3.32 分。研究显示,该架构理解与生成协同提升,数据训练效率优于现有方案。