BAGEL:字节跳动推出的开源多模态模型在图文生成与编辑领域实现革新

JS滚动广告
✨ AI前沿 | 每日人工智能最新资讯 ✨

字节跳动 发布了一款名为 BAGEL 的开源多模态基础模型,拥有70亿个活跃参数,整体参数量达到140亿。
BAGEL 在标准多模态理解基准测试中表现出色,超越了当前一些顶级开源视觉语言模型,如 Qwen2.5-VL 和 InternVL-2.5。此外,在文本到图像的生成质量上,BAGEL 的表现也与强大的专业生成器 SD3相媲美。更重要的是,BAGEL 在经典图像编辑场景中的效果优于许多领先的开源模型。
BAGEL 采用了一种名为混合变换器专家(MoT)的架构,旨在最大化模型对多样化多模态信息的学习能力。它使用两个独立的编码器,分别捕捉图像的像素级和语义级特征。模型的整体框架遵循 “下一个标记组预测” 范式,训练时旨在预测下一个语言或视觉标记,从而达到压缩的目标。
在预训练过程中,BAGEL 利用了来自语言、图像、视频和网络数据的数万亿个交错的多模态标记。经过持续训练和监督微调,BAGEL 在标准的理解和生成基准测试中超过了开源模型,展示了先进的上下文多模态能力,如自由形式图像编辑、未来帧预测、三维操作和世界导航等。
随着 BAGEL 的预训练逐步扩大,研究者们发现模型在理解、生成和编辑任务中的表现持续提升。不同的能力在训练的不同阶段出现,早期展现出多模态理解和生成的能力,而更复杂的智能编辑能力则在后期显现。
研究表明,结合变分自编码器(VAE)和视觉变换器(ViT)的特征显著提升了智能编辑能力,强调了视觉 – 语义上下文在复杂多模态推理中的重要性。
划重点:
🌟 BAGEL 是一款开源多模态基础模型,拥有70亿个活跃参数,超越多项标准基准测试。
🖼️ 该模型在图像生成和编辑任务中表现出色,能够进行自由形式的图像编辑和世界导航。
📈 通过多模态预训练,BAGEL 展示了持续的性能提升,适应了复杂的多模态推理任务。

BAGEL:字节跳动推出的开源多模态模型在图文生成与编辑领域实现革新-项目/模型网址:

BAGEL:字节跳动推出的开源多模态模型在图文生成与编辑领域实现革新

字节跳动开源的多模态模型 BAGEL 是图文生成与编辑领域的一项重要突破。以下是关于 BAGEL 的详细介绍:

模型架构与技术特点
混合变换器专家(MoT)架构:BAGEL 采用 MoT 架构,使用两个独立的编码器分别捕捉图像的像素级和语义级特征,最大化模型对多样化多模态信息的学习能力。
“下一个标记组预测”范式:模型训练时遵循“下一个标记组预测”范式,旨在预测下一个语言或视觉标记,从而达到压缩的目标。
大规模预训练:BAGEL 在预训练过程中利用了来自语言、图像、视频和网络数据的数万亿个交错的多模态标记,经过持续训练和监督微调,其性能在多模态理解和生成基准测试中显著提升。
多模态理解:在标准多模态理解基准测试中,BAGEL 超越了当前一些顶级开源视觉语言模型,如 Qwen2.5-VL 和 InternVL-2.5。
图像生成:在文本到图像的生成质量上,BAGEL 的表现与强大的专业生成器 SD3 相媲美。
图像编辑:BAGEL 在经典图像编辑场景中的效果优于许多领先的开源模型,能够进行自由形式的图像编辑。
能力与应用场景
复杂多模态推理能力:BAGEL 展示了先进的上下文多模态能力,如自由形式图像编辑、未来帧预测、三维操作和世界导航等。
编辑能力提升:研究表明,结合变分自编码器(VAE)和视觉变换器(ViT)的特征显著提升了智能编辑能力,强调了视觉 – 语义上下文在复杂多模态推理中的重要性。
开源与社区贡献

BAGEL 的开源为多模态研究提供了新的机遇。字节跳动分享了关键发现、预训练细节、数据创建协议,并向社区公开了代码与检查点。这将有助于推动多模态技术的进一步发展和应用。

BAGEL 的开源项目页面为:。

BAGEL 的推出不仅在技术上实现了突破,还为多模态领域的研究和应用提供了新的思路和工具。

发表评论