快手发布文生视频大模型-可灵媲美Sora

6 月 06, 2025 AI前沿

21 0

JS滚动广告

✨ AI前沿 | 每日人工智能最新资讯 ✨

可灵生成的2分钟视频，场景切换非常丝滑

据悉，可灵使用了与Sora一样的Diffusion Transformer架构，3D时空联合注意力机制等，该架构巧妙地融合了时间与空间的信息，对视频数据进行综合分析和处理。

可精准捕捉到视频帧内的局部空间特征以及跨帧的时间动态特征，从而更全面地理解和再现视频中的运动信息。

所以，无论是快速移动的物体、剧烈变化的场景，还是复杂的人物动作都能被精确捕捉，使得生成的视频内容动态性十足，同时具有很高的物理世界真实感。

在生成一些跨度较大的场景时，例如，四季变化、剧烈视角切换等，通过3D时空联合注意力机制在编码器和解码器之间建立多维度的关联，确保了即使在大幅度剧烈运动的情况下，生成的视频内容也能保持流畅和连贯，从上面可灵生成的视频就能看出来这一技术特点。

此外，可灵采用了可变分辨率的训练策略，在模型的训练阶段，引入不同分辨率的数据输入，让模型学习到丰富的特征表示。轻松适配手机、平板、PC等不同设备，以满足电影制作、游戏开发、社交营销、在线教育等不同业务场景的需求。

下面「AIGC开放社区」为大家展示一下由可灵大模型生成的视频。

文本提示：一只戴着太阳镜的柯基在热带岛屿的海滩上漫步

导航菜单