图像+音频驱动的口播视频生成!谷歌提出VLOGGER!
我们的流水线M的第一个网络被设计用于基于输入语音来预测驾驶 运动。我们还考虑通过文本到语音模型将输入文本转换为波形,并将产 生的音频表示为标准梅尔频谱图。M基于在时间维度上具有四个多头注意力 层的transformer架构 。我们包括对帧数和扩散步骤的位置编码,以及输 入音频的嵌入MLP和扩散步骤。在每一帧中,我们使用因果掩码使模型只关 注前一帧。该模型使用可变长度的视频进行训练,以生成超长序列,如e.g. TalkingHead-1KH数据集。
我们依靠统计和表达的3D身体模型的估计参数来产生合成视 频的中间控制表示。这些模型同时考虑了面部表情和身体运动,为人类合成更 具表现力和动态的手势打开了大门。我们任务运动生成网络基于帧i中的输入 音频ai来预测面部和身体参数M(ai)={θe i,∆θb i}。特别地,该模型生成身体姿 势θb i的表达式θe i和残差。通过预测位移,i.e. ∆θb i我们使模型能够为目标对象拍 摄具有θb i = θb ref +∆θb i参考姿势θb ref的输入图像,并为帧1 ≤ i ≤ N相对地设置人 物动画。人在几何域中的身份是由体型代码建模的。在训练和测试过程中,我 们使用通过将参数身体模型拟合到输入图像而获得的估计的3D形状参数。为了 利用基于CNN的架构的2D/3D预测,我们使用预测的表达式和姿势参数对模型 进行姿势设置,并将姿势设置体的模板顶点位置光栅化为密集表示,以获得密 集掩模Cd i 1≤i≤N ∈RH× W× 3。我们还为Nc不同的语义类光栅化身体的语义区 域。{Cm i }1≤i≤N ∈ {0,1}H× W× Nc
此外,以前的人脸再现作品通常依赖于扭曲的图像,但在基于 扩散的人类动画架构中,这些图像被忽视了。我们建议弥合这两种表示之间的差距,并使用扭曲的图像来指导生成过程,我们注意到这有助于网络 的任务,并有助于保持主体身份(请参阅Tab. 3)。我们为参考图像中可见的 每个身体顶点指定一种像素颜色,并在每个新帧中渲染身体,从而获得部分扭 曲{Cw i }1≤i≤N ∈ RH× W× 3。对于所有渲染,光栅化过程假设使用全视角相机, 具有从训练视频或参考图像推断的对角视场。
发表评论