带你穿越清明上河图!DragNUWA 惊艳亮相:一拖一拽让静图秒变视频
微软开发的视频生成模型 DragNUWA 能够让静态图像动起来,通过拖动方式给出运动轨迹,生成连贯的视频。该模型支持同时控制摄像机和多个对象的移动以及复杂的轨迹,生成具有现实世界场景和艺术绘画特色的视频。DragNUWA 引入了文本、图像和轨迹信息,从语义、空间和时间角度对视频内容进行精细控制。研究人员还从摄像机移动和复杂轨迹两个方面对该模型进行了测试,证明其在精确建模和控制复杂运动方面的能力。该模型的训练过程概览包括轨迹采样器、多尺度融合和自适应训练。DragNUWA 使用了 WebVid 和 VideoHD 数据集进行训练。该模型的应用前景广阔,可以应用于视频制作、动画制作等领域。
发表评论