快手发布文生视频大模型-可灵 媲美Sora

JS滚动广告
✨ AI前沿 | 每日人工智能最新资讯 ✨

可灵生成的2分钟视频,场景切换非常丝滑

据悉,可灵使用了与Sora一样的Diffusion Transformer架构,3D时空联合注意力机制等,该架构巧妙地融合了时间与空间的信息,对视频数据进行综合分析和处理。

可精准捕捉到视频帧内的局部空间特征以及跨帧的时间动态特征,从而更全面地理解和再现视频中的运动信息。

所以,无论是快速移动的物体、剧烈变化的场景,还是复杂的人物动作都能被精确捕捉,使得生成的视频内容动态性十足,同时具有很高的物理世界真实感。

在生成一些跨度较大的场景时,例如,四季变化、剧烈视角切换等,通过3D时空联合注意力机制在编码器和解码器之间建立多维度的关联,确保了即使在大幅度剧烈运动的情况下,生成的视频内容也能保持流畅和连贯,从上面可灵生成的视频就能看出来这一技术特点。

此外,可灵采用了可变分辨率的训练策略,在模型的训练阶段,引入不同分辨率的数据输入,让模型学习到丰富的特征表示。轻松适配手机、平板、PC等不同设备,以满足电影制作、游戏开发、社交营销、在线教育等不同业务场景的需求。

下面「AIGC开放社区」为大家展示一下由可灵大模型生成的视频。

文本提示:一只戴着太阳镜的柯基在热带岛屿的海滩上漫步

发表评论