Meta团队提出首个文本-3D动态场景生成方法,无需任何3D或4D数据

钛度号
生成的动态视频可以从任何摄像机位置和角度观看,并且可以合成到任何 3D 环境中。

图片来源@视觉中国

图片来源@视觉中国

文 | 学术头条

2022年,生成模型(Generative models)取得了巨大的进展。不仅可以从自然语言提示中生成逼真的 2D 图像,也在合成视频和 3D 形状生成方面有着不俗的表现。

虽然目前的生成模型可以生成静态的 3D 对象,但合成动态场景更加复杂。而且,由于目前缺少现成的 4D 模型集合(无论是有或没有文本注释),相比于 2D 图像和视频生成,由文本到 4D 的生成更加困难。

那么,如何基于简单的文本直接生成复杂的 3D 动态场景呢?

一种可能的方法是,从预先训练好的 2D 视频生成器开始,从生成的视频中提取 4D 重建。然而,从视频中重建可变形物体的形状是一项非常具有挑战性的工作。

近日,来自 Meta 的研究团队结合视频和 3D 生成模型的优点,提出了一个新的文本到 4D(3D+时间)生成系统——MAV3D(Make-A-Video3D)

据介绍,该方法使用 4D 动态神经辐射场(NeRF),通过查询基于文本到视频(T2V)的扩散模型,对场景外观、密度和运动一致性进行了优化。

同时,由特定文本生成的动态视频可以从任何摄像机位置和角度观看,并且可以合成到任何 3D 环境中

图|由MAV3D生成的样本。行表示时间的变化,列表示视点的变化。最后一列显示其相邻列的深度图像。(来源:该论文)

研究团队表示,MAV3D 是第一个基于文本描述生成 3D 动态场景的方法,可以为视频游戏、视觉效果或 AR/VR 生成动画 3D 资产。相关研究论文以“Text-To-4D Dynamic Scene Generation”为题,已发表在预印本网站 arXiv 上。

据论文描述,MAV3D 的实现不需要任何 3D 或 4D 数据,而且 T2V 模型也只是在文本-图像对和未标记的视频数据上训练的

以往研究证明,仅仅使用视频生成器优化动态 NeRF 不会产生令人满意的结果。为了实现由文本到 4D 的目标,必须克服以下 3 个挑战

  • 找到一个端到端、高效且可学习的动态 3D 场景的有效表示;
  • 有一个监督来源,因为没有可供学习的大规模(文本,4D)数据集。
  • 需要在空间和时间上缩放输出的分辨率,因为 4D 输出域是内存密集型的和计算密集型的。

那么,由简单的文本描述到复杂的 3D 动态场景生成,具体是如何实现的呢?

首先,研究团队仅充分利用了三个纯空间平面(绿色),渲染单个图像,并使用 T2I 模型计算 SDS 损失。

然后,他们添加了额外的三个平面(橙色,初始化为零以实现平滑过渡),渲染完整的视频,并使用 T2V 模型计算 SDS-T 损失。

最后,即超分辨率微调(SRFT)阶段,他们额外渲染了高分辨率视频,并将其作为输入传递给超分辨率组件。

图|MAV3D 的实现路径(来源:该论文)

另外,MAV3D 也可以完成由图像到 4D 应用的转换。给定一个输入图像,通过提取它的 CLIP embedding,并以此来约束(condition)MAV3D。

图|图像到4D应用。

然而,这一方法也存在一定的局限性。例如,在实时应用中,将动态 NeRF 转换为不相交网格序列的效率很低。研究团队认为,如果直接预测顶点的轨迹,或许可以改进。

此外,利用超分辨率信息已经提高了表示的质量,但对于更高细节的纹理还需要进一步改进。

最后,表示的质量取决于 T2V 模型从各种视图生成视频的能力。虽然使用依赖于视图的提示有助于缓解多面问题,但进一步控制视频生成器将是有帮助的。

参考链接:

  • https://arxiv.org/abs/2301.11280
  • https://make-a-video3d.github.io/
本文系作者 学术头条 授权钛媒体发表,并经钛媒体编辑,转载请注明出处、作者和本文链接
本内容来源于钛媒体钛度号,文章内容仅供参考、交流、学习,不构成投资建议。
想和千万钛媒体用户分享你的新奇观点和发现,点击这里投稿 。创业或融资寻求报道,点击这里

敬原创,有钛度,得赞赏

赞赏支持
发表评论
  • 给小编加鸡腿🍗
  • 爱了爱了😁
  • 挺有深度的,不错
  • 紧跟时事,赞一个👍🏻👍🏻
  • 真不错,收藏了
  • 写的很不错,关注了
  • 都没有那么简单
  • 这么厉害的吗
  • 学到了学到了
  • 商场如战场,竞争激烈啊
  • 行业发展都是有周期的
  • 企业的发展都不是一番风顺的
  • 说的好有道理😄
  • 内容值得人们反思
  • 数据还是很详细的
  • 内容很精彩,夸一夸
  • 又学到了很多知识
  • 内容很详细👍🏻
  • 小编辛苦了
0 / 300

根据《网络安全法》实名制要求,请绑定手机号后发表评论

登录后输入评论内容
  • Meta自己把自己玩死了

    回复 2023.01.31 · via h5
  • 元宇宙已经被大家看清楚是什么东西了

    回复 2023.01.31 · via pc
  • 从研发到应用还有很长的路要走

    回复 2023.01.30 · via h5
  • 可是它的价值是什么呢

    回复 2023.01.30 · via android

快报

更多

04:51

机构:预估2025年笔电品牌出货成长率将下调至1.4%

04:45

抖音一季度封禁涉水军、欺诈等黑产账号260万个

04:44

澳门推出《2025年中小企业银行贷款利息补贴计划》

04:44

易方达香港恒生综合小型股指数证券投资基金(LOF)临时停牌

04:38

易方达黄金主题证券投资基金(LOF)临时停牌

04:37

格力电器加码新能源汽车供应链,钟成堡称已对接人形机器人供应链

04:26

中国光伏行业协会回应“控产会议”传闻:不信谣不传谣

04:21

卫生巾品牌绵绵的羊发公开信:公司产品生产与销售流程合法合规

04:20

神舟二十号任务完成最后一次全区合练,发射场做好发射前各项准备

04:20

震裕科技:距离“震裕转债”停止转股仅剩半个交易日

04:12

国家药监局批准首个AKT抑制剂上市

04:10

港股午评:恒指微跌0.04%,恒生科技指数跌0.5%,黄金、生物科技股逆势强劲

04:02

得润电子:控股股东所持部分股份二次司法拍卖流拍

03:58

宁德时代在长春成立科技公司,含集中式快速充电站业务

03:56

山西高速:公司副总经理尚海波辞职

03:56

德恩精工:与天工机器人和小顽童机器人目前没有业务合作

03:54

绿康生化:公司控制权变更事项处于洽谈阶段,股票停牌不超过2个交易日

03:43

光伏行业协会下午开会,继续讨论“控产”

03:42

预告:国新办将于4月25日上午10时举行新闻发布会,介绍《中国打击侵权假冒工作年度报告(2024)》有关情况

03:41

天津自贸试验区获金融机构授信7000亿元

16
4
4

扫描下载App