字节跳动开源项目UNO:图片生成可以保持角色、物体一致性

JS滚动广告
✨ AI前沿 | 每日人工智能最新资讯 ✨

人工智能(AI)在图像生成领域取得了显著的进展,但如何让AI在生成不同场景或进行多次创作时,保持图像中特定角色或物体的一致性,一直是行业内的重要挑战。近日,字节跳动旗下的智能创作团队发布了其最新的开源项目 UNO,旨在通过创新技术,解锁更强的生成可控性,尤其是在保持图像主体一致性方面,为AI图像生成领域带来了新的突破。
在以往的AI图像生成过程中,即使输入相同的描述,每次生成的人物、物品也可能在外观上存在显著差异,这使得在需要保持角色或物体在不同图像中形象统一的应用场景中面临诸多不便。例如,创建一个系列漫画或故事绘本时,如果主角的形象 постоянно 变化,将严重影响用户体验。UNO项目的核心目标正是解决这一“脸盲症”问题,让AI在生成图像时,能够准确地“记住”用户想要保持一致的主体。
UNO之所以能够实现高一致性的图像生成,得益于其提出的高一致性数据合成流程。该流程充分利用了扩散模型(Diffusion Transformers,简称 DiT)内在的上下文生成能力,生成具有高度一致性的多主体配对数据。
此外,UNO模型本身也进行了创新设计,主要包括 渐进式跨模态对齐(progressive cross-modal alignment) 和 通用旋转位置编码(universal rotary position embedding)。通过这些技术,UNO能够更好地理解和对齐文本和图像信息,从而在多主体驱动的生成过程中实现高一致性和可控性。
UNO的强大之处在于其同时支持单主体和多主体驱动的图像生成,并能确保生成结果的高度一致性。这意味着,无论是需要保持单个角色的形象不变,还是需要在包含多个特定物体的场景中维持它们各自的特征,UNO都能够胜任。
通过 多图像条件输入,UNO能够学习并理解用户希望保持一致的主体特征,并在后续的生成过程中准确地还原这些特征,即使在不同的场景描述下,也能确保“主角”的形象不走样。
虽然项目的介绍中并未直接明确UNO是基于哪个具体的DiT模型进行开发,但其强调利用了扩散模型的上下文生成能力,并开源了训练和推理代码,这为研究人员和开发者将UNO的技术应用于各种DiT模型提供了便利。可以预见,UNO的技术将有助于提升现有DiT模型在生成图像时的保真度和可控性,尤其是在需要保持图像内容连贯性的场景中。

字节跳动开源项目UNO:图片生成可以保持角色、物体一致性-项目/模型网址:

字节跳动开源项目UNO:图片生成可以保持角色、物体一致性

字节跳动开源的UNO项目是一个创新的AI图像生成框架,能够在生成不同场景的图片时保持角色或物体的一致性。以下是关于该项目的详细介绍:

高一致性数据合成管道:UNO利用扩散变换器(Diffusion Transformers)的内在上下文生成能力,生成高一致性的多主体配对数据。这种方法能自动创建大规模、高质量的训练数据,解决了数据获取的难题。
渐进式跨模态对齐:该策略分为两个阶段。第一阶段使用单主体上下文生成的数据对预训练的文本到图像模型进行微调,使其具备处理单主体驱动生成任务的能力;第二阶段引入多主体数据继续训练,增强模型处理复杂场景的能力。
通用旋转位置嵌入(UnoPE):有效解决了在扩展视觉主体控制时的属性混淆问题。通过为文本和图像标记分配特定的位置索引,调控多模态标记之间的交互,使模型专注于从文本特征中获取布局信息,在保持良好文本可控性的同时,提高主体相似性。
单主体定制生成:根据一张参考图像生成保持同一主体特征但处于不同场景、姿势或风格的图像。
多主体组合生成:接收多个参考图像作为输入,生成包含所有参考主体的新图像。
虚拟试穿与产品展示:将特定的产品(如服装、饰品等)放置在不同的人物模型上,展示其效果,也可以将产品放置在各种场景中,保持产品的原始特征。
风格化生成:对参考主体进行风格转换,生成不同风格的图像。
强大的泛化能力:能适应多种应用场景,如单主体和多主体驱动的图像生成,能泛化到id、tryon、style等场景。
解决行业难题:以往的AI图像生成过程中,即使输入相同的描述,每次生成的人物、物品也可能在外观上存在显著差异。UNO项目的核心目标正是解决这一“脸盲症”问题,让AI在生成图像时,能够准确地“记住”用户想要保持一致的主体。
性能卓越:在DreamBench数据集上,UNO在单主题生成中取得了最高的DINO(0.760)和CLIP-I(0.835)分数;在多主题生成中,DINO和CLIP-I分数分别为0.542和0.733,成为目前一致性生成的SOTA。

字节跳动已将UNO项目完全开源,包括训练代码、推理代码、模型权重等全部资源。开源内容如下:

项目官网:
Github仓库:
HuggingFace模型:
arXiv技术论文:
内容创作:创意工作者可以快速生成保持人物一致性的多场景图像。
电商与广告:产品可以放置在各种场景中,保持其原始特征。
影视制作:辅助故事板创作,快速可视化多角色场景。
虚拟试穿:将不同的服装、饰品等产品放置在虚拟人物模型上,生成不同场景下的试穿效果。
产品设计:在产品设计中,将产品放置在各种背景和场景中,保持产品的原始特征,为设计师提供更灵活的设计思路。
创意设计:能接收多个参考图像作为输入,生成包含所有参考主体的新图像。
个性化内容生成:根据一张参考图像生成保持同一主体特征但处于不同场景、姿势或风格的图像。
角色和场景设计:为游戏开发提供强大的图像生成支持,帮助开发者快速生成角色和场景,激发创意。

发表评论