Stability AI推3D空间视频工具,照片直接秒变3D视频
在过去几个月中,Stability 聘请了新的 CEO,任命《泰坦尼克号》导演 James Cameron 为董事会成员,并发布了多个新的图像生成模型。今年三月初,该公司与芯片制造商 Arm 合作,将一款能够生成音频(包括音效)的 AI 模型引入搭载 Arm 芯片的移动设备。
今天,我们发布了目前处于研究预览阶段的 Stable Virtual Camera。这一多视角扩散模型可将2D图像转换为具有真实深度和透视效果的沉浸式3D视频——无需复杂的重建或场景特定优化。
虚拟相机是电影制作和3D动画中用于实时捕捉和导航数字场景的数字工具。Stable Virtual Camera 基于这一概念,将传统虚拟相机的熟悉控制与生成式AI的强大功能相结合,提供对3D视频输出的精确、直观控制。
与依赖大量输入图像或复杂预处理的传统3D视频模型不同,Stable Virtual Camera 可从一张或多张输入图像在用户指定的相机角度生成场景的新视图。该模型生成一致且平滑的3D视频输出,在动态相机路径上提供无缝的轨迹视频。
Stable Virtual Camera 提供了生成3D视频的高级功能,包括:
动态相机控制:支持用户定义的相机轨迹以及多种动态相机路径,包括:360°、莫比乌斯环(∞形路径)、螺旋、推近变焦、推远变焦、放大、缩小、前进、后退、向上平移、向下平移、向左平移、向右平移和旋转。
灵活的输入:可以仅从一张输入图像或最多32张图像生成3D视频。
多种宽高比:能够生成正方形(1:1)、竖屏(9:16)、横屏(16:9)和其他自定义宽高比的视频,无需额外训练。
长视频生成:确保长达1,000帧的视频中的3D一致性,实现无缝循环和平滑过渡,即使重新访问相同的视角也是如此。
Stable Virtual Camera 在新视角合成(NVS)基准测试中取得了最先进的结果,性能超过了 ViewCrafter 和 CAT3D 等模型。它在强调生成能力的大视角 NVS 和优先考虑时间平滑度的小视角 NVS 方面都表现出色。
这些图表对领先的3D视频模型在各数据集上进行基准测试,测量感知质量(LPIPS)和准确度(PSNR)。每个轴反映不同的数据集和输入设置。
Stable Virtual Camera 作为一个多视角扩散模型,以固定序列长度训练,采用设定数量的输入和目标视图(M输入,N输出)。
Stable Virtual Camera 作为具有固定序列长度的多视角扩散模型进行训练,使用设定数量的输入和目标视图(M输入,N输出)。在采样过程中,它作为灵活的生成渲染器运行,适应可变的输入和输出长度(P输入,Q输出)。这是通过两阶段程序性采样过程实现的——首先生成锚点视图,然后分块渲染目标视图,以确保平滑一致的结果。
在初始版本中,Stable Virtual Camera 在某些场景下可能产生较低质量的结果。包含人类、动物或动态纹理(如水)的输入图像通常会导致输出质量下降。此外,高度模糊的场景、与物体或表面相交的复杂相机路径以及形状不规则的物体可能会导致闪烁伪影,特别是当目标视角与输入图像有显著差异时。
发表评论