MiniGPT-5实现图文统一生成:Token变Voken,支持文本续写及自动配图
最近,加州大学圣克鲁兹分校研究团队提出了MiniGPT-5,这是一种基于「生成式voken」概念的创新型交错视觉语言生成技术。MiniGPT-5通过特殊的视觉token,将Stable Diffusion与大语言模型相结合,不仅支持文本的续写生成,还可以自动配图。研究者还提出了两阶段训练策略,先进行单模态对齐,再进行多模态特征学习,从而在数据不足的情况下提高模型表现。评估结果显示,MiniGPT-5在多个数据集上均取得最先进的生成效果。该技术为增强多模态生成能力提供了新的思路。
发表评论