国产Open-Sora上新v1.1.0版本国产开源Sora上新，可用ReVideo视频编辑

6 月 06, 2025 AI前沿

30 0

JS滚动广告

✨ AI前沿 | 每日人工智能最新资讯 ✨

这和Sora技术报告的内容基本差不多。

此次更新的Open-Sora-Plan v1.1.0是一个基于Transformer的文本到视频模型，经过T5文本嵌入的训练。

与之前的工作类似，整个训练过程采用多阶段的级联的训练方法，分三个阶段。

其中，第二阶段采用了华为昇腾算力进行训练，该阶段的训练、推理完全由国产芯片支持。

目前，仍然在训练和不断观察第三阶段的模型——增加帧数到513帧，大约是24FPS的21秒的视频。

相比上个月发布的前作Open-Sora-Plan v1.0.0，最新版本主要2个方面的优化。

一是优化了CausalVideoVAE的结构，二是采用了更高质量的视觉数据与captions。

– 优化CausalVideoVAE的结构

优化CausalVideoVAE的结构，让Open-Sora-Plan v1.1.0拥有比前作更强的性能、更高的推理效率。

来看过程：

随着生成视频帧数不断增加，CausalVideoVAE的encoder开销逐渐增加；当训练257帧时，80G的显存不足以让VAE encode视频。

因此，团队减少CausalConv3D的数量，只保留encoder的最后两个stage的CausalConv3D。

它能够几乎保持原有的性能的情况下大幅度降低开销。

注意，这里只修改encoder，decoder的仍然保留所有的CausalConv3D，因为训练Diffusion Model不需要decoder。

Temoral Module

而在v1.0.0，Open-Sora-Plan的temporal module只有一个TimeAvgPool，AvgPool会导致视频中的高频信息（如细节和边缘）丢失。

为了解决这个问题，团队在v1.1.0中改进该模块，引入了卷积并增加了可学习的权重，以期望不同分支能够解耦不同特征。

当忽略CasualConv3D时，视频将会被重建得非常模糊；同样的，当忽略TemporalAvgPool，视频会变得非常锐利。

同时，和v1.0.0一样，团队从Latent Diffusion的VAE初始化，采用tail initialization。

对于CasualVideoVAE，研究人员在第一阶段训练100k steps with the video shape of 9×256×256。

进一步，研究人员将9帧提高到25帧，发现增加视频帧数还能显著提高模型性能。

需要特别澄清的是，第一阶段和第二阶段团队开启mixed factor，在训练结束时a(sigmoid(mixed factor))的值为0.88，这意味着模型倾向于保留低频信息。

研究人员在第三阶段将mixed factor初始化为0.5（sigmoid(0.5)=0.6225），最终模型能力得到进一步提升。

研究人员发现GAN Loss能够保留高频信息和缓解网格效应。

同时还发现将2D GAN改成3D GAN能有进一步提升。

Inference Tricks

在v1.0.0中，团队采用spatial tiled convolution，它能够以几乎恒定的内存推理任意分辨率的视频。

然而随着帧数变多，VAE encoder的开销不断增加。

因此新版本引入一个方法叫做temporal rollback tiled convolution，它是专门为了CausalVideoVAE而设计的一种tiled方法。

具体来说，除了第一个窗口以外的窗口都将抛弃第一帧，因为窗口内的第一帧被看作图片，然而其余帧都应该被当作视频帧。

– 采用更高质量的视觉数据与caption

接下来介绍第二个优化部分，即Open-Sora-Plan v1.1.0采用了更高质量的视觉数据与caption，这使得模型对世界运行规律有了更好的理解。

由于Open-Sora-Plan支持图片视频联合训练，因此数据收集分为图片和视频2个部分，且图片数据集和视频数据集是两个独立的数据集。

团队注明，大概花费了32×240个H100 hours生成image and video captions——这些也全部开源。

图片收集管道

研究人员从Pixart-Alpha获取了11M个图像文本对，他们的caption由LLaVA生成。

团队还注意到了高质量的OCR数据集Anytext-3M，这个数据集每一个图片都配对了相对应的OCR字符。但这些caption不足以描述整个图片。因此，团队采用InternVL-1.5进行补充描述。

由于T5只支持英文，所以研究人员筛选了英文数据参与训练，这约有完整数据的一半。

另外还从Laion-5B中筛选高质量图片以提高生成人类的质量，筛选规则主要包括：高分辨率、高美学分数、无水印的包含人的图片。

视频收集管道

在v1.0.0中，团队对视频采样1帧来生成caption。

然而随着视频时长增加，一帧图片无法描述整个视频的内容，也无法描述时序上的镜头移动。

因此现在采用video captioner对整个video clip生成caption——具体地，采用ShareGPT4Video，它能够很好的覆盖时间信息并且描述整个视频内容。

值得注意的是，v1.1.0的视频数据集大约有3k小时，而v1.0.0版本仅有0.3k小时。

与之前一样，团队开源所有的文本注释和视频（均为CC0协议）。

One More Thing

最后，Open-Sora-Plan表示，接下来的工作主要围绕两个方面进行。

一是数据缩放，重点关注数据来源和数据体量。

二是模型设计，主要会对CasualVideoVAE和扩散模型下手。

不变的是，无论如何更迭，所有数据、代码和模型都会继续开源。

GitHub：

https://github.com/PKU-YuanGroup/Open-Sora-Plan

抱抱脸：

https://huggingface.co/spaces/LanguageBind/Open-Sora-Plan-v1.1.0

ReVideo模型：

https://github.com/MC-E/ReVideo?tab=readme-ov-file

国产Open-Sora上新v1.1.0版本国产开源Sora上新，可用ReVideo视频编辑

发表评论

取消回复

导航菜单

相关推荐

发表评论

取消回复

导航菜单