杭州“六小龙”之一的群核科技近日在GTC2025全球大会上低调开源了一款空间理解模型SpatialLM。
SpatialLM是一个基于大语言模型的3D场景语义生成框架。通过一段视频输入,就能准确认知和理解此视频对应的空间点云数据,并对点云数据进行推理和场景描述,最终将提取的信息以自然语言的形式呈现。
SpatialLM运行原理
这款中国公司低调开源的模型一经推出,在国外LinkedIn、Twitter和技术圈受到热捧。在最新HuggingFace趋势榜上,群核科技SpatialLM登上趋势榜第二位,有意思的是趋势榜前三家均是杭州公司,分别为Deepseek、群核科技SpatialLM、通义千问Qwen2.5-Omni,领先于英伟达、谷歌等公司模型。
HuggingFace趋势榜
群核科技创始人黄晓煌接受国际媒体彭博社采访时直言:“开源是为了推动具身智能技术奇点到来。”
海外平台用户对SpatialLM的自发分享
不同于传统大语言模型,SpatialLM突破了对物理世界几何与空间关系的理解局限,赋予机器类人的空间认知和解析能力。
目前,SpatialLM已在HuggingFace、GitHub、魔搭社区等平台面向全球开发者开源。
虽然行业已有对图像、视频进行参数化描述模型,比如Meta此前发布的SceneScript模型。但SpatialLM的独特之处在于:
1、相比Meta需要依赖其眼镜的定制化模式,SpatialLM设定于面向普通相机、手机的视频作为输入,因此更具通用性。
2、不同于传感器对物理世界的感知,SpatialLM使用大语言模型,最终输出是对3D场景的自然语言描述,未来还将支持原生自然语言与场景数据交互。
3、更重要的是,SpatialLM支持对物理世界中空间信息的认知理解,和结构化描述。群核科技本身便专注于物理空间模拟的技术场景,过去十余年中积累了海量的三维数据和空间认知数据;基于此数据训练的模型,亦具备创建物理正确的空间场景的能力。
SpatialLM模型开源后,将为像具身智能领域的企业或机构科研团队提供一个空间认知理解的基础训练框架。尤其是对那些不具备模型开发能力的具身智能企业,可以基于SpatialLM模型进行微调,降低具身智能训练门槛。
同时,SpatialLM模型与去年群核科技发布的空间智能解决方案SpatialVerse之间,形成从空间认知理解到空间行动交互的具身智能训练闭环。SpatialLM模型负责空间认知理解上的基础训练,SpatialVerse负责机器人在仿真环境中的行动交互训练。
另一方面,SpatialLM模型使SpatialVerse的数据来源更开放。通过从视频到结构化场景的转化,将现实世界的数据转化为虚拟环境中的丰富场景。而基于SpatialVerse的合成数据引擎,这些基于SpatialLM模型生成的一个个结构化场景又可泛化生成亿万级新场景。相当于形成一条 "现实 - 虚拟 - 现实" 的闭环路径,让现实世界成为“数字道场”的原料来源,这不仅让SpatialVerse的数据更多样,同时还能缩小仿真与现实之间的“差距”。
钛媒体App此前报道过,这家目前备受关注的空间智能公司,今年2月向港交所提交了上市申请,联席保荐人为摩根大通、建银国际。招股书显示,群核科技营业收入由2022年的6亿元增加10.5%至2023年的6.64亿元;2024年前9个月经调整净亏损为9361万元。
更早4个月前,群核科技对外公开两大技术引擎:群核科技启真(渲染)引擎和群核矩阵(CAD)引擎,并首次介绍其技术底层核心:基于GPU高性能计算的物理世界模拟器。现场,群核科技还推出了群核空间智能平台SpatialVerse,面向AIGC、具身智能、AR/VR 等企业开放物理正确的3D空间数据资产、空间认知解决方案以及空间智能训练相关服务。
据悉,目前该平台拥有全球最大的室内场景认知深度学习数据集,此前还与英特尔、慕尼黑工业大学推出全球首个高视觉与物理逼真度环境数据合成与训练仿真平台SPEAR SIM。
群核科技联合创始人兼CEO陈航表示,群核科技是一家以GPU集群和AI技术为底座的科技公司,在过去数年的技术沉淀中构建了一套物理正确的世界模拟器,并将之运用在基于空间的实时设计渲染、工业生产制造,以及虚拟物理世界训练等场景中。据悉,2024年群核科技全平台平均月活跃访客数为8630万名,旗下酷家乐是全球最大的空间设计平台,在十年发展中沉淀了超过3.6亿的3D模型。(本文首发于钛媒体APP,作者 | 秦聪慧)
根据《网络安全法》实名制要求,请绑定手机号后发表评论
群核科技提交上市申请了,有这模型助力,未来可期!
趋势榜前三都是杭州公司,杭州AI发展势头太猛了!
杭州“六小龙”厉害啊,SpatialLM直接冲到HuggingFace趋势榜第二!
开源是为推动具身智能,群核科技这格局真不小!
能和自家的SpatialVerse形成闭环,这技术布局挺有想法!
这个模型能理解3D场景,还能自然语言描述,功能真挺强大!
相比Meta的模型,SpatialLM更通用,感觉应用前景会更广!