迎接物理 AI 时代,“杭州六小龙” 群核科技开源空间理解模型 SpatialLM

华尔街见闻
2025.03.20 09:46
portai
我是 PortAI,我可以总结文章信息。

在美国举行的 GTC 2025 全球人工智能盛会上,英伟达 CEO 黄仁勋介绍了物理 AI 的未来。杭州群核科技宣布开源其空间理解模型 SpatialLM,该模型能从视频中提取点云数据,生成物理正确的 3D 场景布局,降低机器人训练成本。SpatialLM 与 2024 年发布的 SpatialVerse 平台协同工作,能够将现实世界数据转化为虚拟环境中的新场景。尽管行业内已有类似模型,SpatialLM 在空间信息认知理解方面具有优势。

日前,英伟达主办的 GTC 2025 全球人工智能盛会正在美国召开,物理 AI 成为关键词之一。

英伟达 CEO 黄仁勋在 GTC 上介绍了 AI 研发的发展历程,从最初的意识 AI,到现在的生成式 AI,预计即将进入代理式 AI 的时代,接下来将是物理 AI,也就是机器人的时代。

在物理 AI 时代到来之前,如何让机器人具备真正 “看懂世界” 的核心能力,是行业的发力重点。

此次会议上上,“杭州 AI 六小龙” 群核科技宣布开源了自主研发的空间理解模型 SpatialLM,目前已在 HuggingFace、GitHub、魔搭社区等平台上线。

群核科技向信风介绍,基于从视频中提取的点云数据,SpatialLM 模型能够准确认知和理解其中的结构化场景信息,并基于这一视频生成物理正确的 3D 场景布局。

如此一来,企业可以针对特定场景对 SpatialLM 模型进行微调,降低具身智能训练门槛。

这一模型与群核科技 2024 年发布的空间智能平台 SpatialVerse 具有协同作用。

SpatialLM 模型通过从视频到结构化场景的转化,将现实世界的数据转化为虚拟环境中的丰富场景,基于 SpatialVerse 的合成数据引擎,一个结构化场景又可泛化生成亿万级新场景。

这意味着,一个基于真实世界的场景可以演化成无数个新场景,大大降低了机器人的训练成本。

不过群核科技的 SpatialLM 并非独有,目前行业内已有公司推出类似的参数模型。

2024 年,Meta 发布了 SceneScript 模型,能将真实世界的场景转化为几何表示,并进行场景拓展。

据群核科技人士介绍,相比 SceneScript,SpatialLM 的重要优势在于支持对物理世界中空间信息的认知理解,和结构化描述;输入方面,SceneScript 需要依赖 Meta 定制化的眼镜,但 SpatialLM 面向普通相机、手机的视频作为输入,更具通用性。

在空间和具身智能训练上,目前群核科技已与硅谷头部科技企业达成合作。

资本化进程上,群核科技已于今年 2 月向港交所递交 IPO 申请,有望成为 “杭州六小龙” 中首家上市公司。

风险提示及免责条款

市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。