腾讯给 3D 生成大模型添了一把火

华尔街见闻
2025.01.22 10:12
portai
我是 PortAI,我可以总结文章信息。

混元可创作小游戏 3D 动画了。

作者 | 黄昱、陈瑛羿

编辑 | 周智宇

过去一年,基础大语言模型能力普遍提升、文生视频大模型崭露头角,在朝着 AGI 前进的道路上,2025 年更多成熟的多模态大模型将进入市场。

多模态的战火愈演愈烈,稳坐全球游戏头把交椅的腾讯,正在瞄准游戏研发需求很大的 3D 生成持续发力。

1 月 21 日,腾讯正式推出并开源混元 3D 生成大模型 2.0 版本,还同步上线了业界首个一站式、低门槛 3D 内容 AI 创作平台——混元 AI 3D 创作引擎。

交流会上,腾讯混元 3D 负责人郭春超表示,混元 AI 3D 创作引擎的价值在于,解决 3D 创作需求多,但普通人不会做,专业人士做的很慢的问题。“这也导致传统 3D 模型的创作成本是很高的,一个 3D 模型最便宜要接近百元,贵的话 10 万。”

早在去年 11 月,腾讯就发布且开源了混元 3D 生成大模型 1.0,支持企业及开发者精调和部署。

仅仅时隔两个月,腾讯又有大动作,这意味着,腾讯瞄准了 AI 3D 领域,要在此持续发力,争当行业先锋。

对比 1.0 版本,混元 3D 生成大模型 2.0 版本也依然同时支持文、图生 3D 的能力,不同的地方在于,通过将几何、纹理解耦生成,2.0 版本在生成效果上得到显著提升,在几何结构上更加精细,纹理色彩更加丰富。

据悉,3D 生成模型主要包括几何和纹理生成两部分,其中,几何大模型专注于捕捉物体的形状、结构和空间关系,而纹理大模型则专注于颜色、细节和表面特征。这种专注性使得每个模型能在其领域内进行更深入的学习和优化,而几何与纹理解耦生成的方式,让整体生成能力达到更高上限,能够生成更为精细和真实的 3D 结果。

搭载 2.0 版本的 3D AI 创作引擎,可通过一句话、提示词或图片,直接生成 3D 模型。除了基础模型生成外,该引擎还有 3D 功能矩阵、3D 编辑、3D 生成工作流、创作素材库等多种功能。

也就是说,这个 3D 内容 AI 创作平台具有 “低门槛、高效率” 的特征,在助力游戏开发、设计建模等专业领域的 3D 生产管线的同时,也可以支持普通爱好者生成 UGC 3D 内容。

与很多大模型厂商不同,腾讯始终以 “产业实用” 作为发展大模型的核心战略,而腾讯自身也有丰富的业务场景去实践。

腾讯混元大模型已经在腾讯内部超过 700 个业务场景中落地应用,混元 3D 生成大模型也已在腾讯的游戏、社交、腾讯地图、腾讯云、机器人等多个业务场景内测。

据悉,混元生成 3D 质量已能满足部分游戏 3D 资产标准,包括几何布线合理性、贴图准确性与骨骼蒙皮合理性等,据统计,通过混元 3D 创作平台的助力,腾讯游戏业务 3D 资产制作时间成本可从 5-10 天级别下降到分钟级。

游戏研发无疑是 3D 模型应用的重要场景,混元 3D 生成大模型 2.0 版本则让 3D 生成能真正应用到游戏研发中去。

腾讯游戏在研项目研发制作人王智刚在交流会上指出,现在市面上 AI 生成 3D 模型应用于游戏研发的主要挑战,包括模型面数控制能力、布线合理性、绑定骨骼的能力、蒙皮合理性等,这也导致绝大部分 AI 生成的 3D 模型不能应用到游戏中去。

混元 3D 生成大模型则在这些问题上有了明显改善。就面数控制能力而言,王智刚表示,面数控制能力其实对游戏研发来说是至关重要的,某些游戏项目需要的 3D 模型可能只有几千面,但一些大模型只能生成几万面,这就会导致游戏跑不起来。

“大家觉得如果不能做更高精度的模型好像显得模型能力不够强,但另一方面,如果在游戏研发里不能做面数控制更低的模型,其实也代表它能力不能行。”

王智刚称,腾讯混元团队能深入扎根来理解游戏整个研发的生产流程,所以能在理解真正痛点的情况下,会很克制的关注游戏研发的需求,而其它一些团队可能不一定有这么深的理解或关注,所以会跟业务应用之间还有脱节。

在王智刚看来,混元 3D 生成大模型已经基本能满足像微信小游戏这样的 3D 生成需求了。

多模态是大模型领域下阶段军备赛的焦点,还有很大提升空间。

郭春超指出,从技术而言,3D 和视频的成熟度没有到充分的拐点,因为发展的时间相对短一些,但视觉合格率仅用一年时间就从 20% 提升到 60% 的水平,发展非常快。但是相比于生文达到 95%,生图达到 90% 以上的合格率,它的成熟度、可用性处在前半赛场。

对于腾讯混元 3D 未来的发展方向,郭春超表示 2.0 的上限远远没有达到,所以 “技术的方向一定是纵向深挖,横向拓展”,但一年后的形态很难预料,就像大家以前没有想到忽然跳出 sora 和 GPT-4o,所以技术方面,可能会从量变引发一个拐点。

3D 生成大模型的发展还面临不小挑战。

郭春超指出,一是数据的不足,只有千万量级的数据,并且没有被充分的利用。二是 3D 模型本身相对于别的模态约束比较少,比如视频虽然也是横向在时间轴上拓展,但是很少有突变,所以模型本身的技术挑战比较大。

多模态是大势所趋。开源证券指出,国内外 AI 多模态大模型的持续突破及后续商业化,或大幅降低广告、课件、短剧、动画、剧集、电影等制作成本,提高 IP 开发、广告营销及教学效率,扩大商业化空间。

3D 生成大模型的战场已然十分火热,前不久李飞飞创业公司 World Labs 展示了一图生成 3D 世界的 AI 系统,字节、美团近日又联手投资了 3D 生成大模型公司影眸科技。

可以预见的是,3D 生成大模型将成为 2025 年的热点之一。