MiniGPT-5实现图文统一生成:Token变Voken,支持文本续写及自动配图 - AI前沿

首页 > AI技术

MiniGPT-5实现图文统一生成:Token变Voken,支持文本续写及自动配图

6 月 06, 2025 AI前沿

28 0

JS滚动广告

✨ AI前沿 | 每日人工智能最新资讯 ✨

最近,加州大学圣克鲁兹分校研究团队提出了MiniGPT-5,这是一种基于「生成式voken」概念的创新型交错视觉语言生成技术。MiniGPT-5通过特殊的视觉token,将Stable Diffusion与大语言模型相结合,不仅支持文本的续写生成,还可以自动配图。研究者还提出了两阶段训练策略,先进行单模态对齐,再进行多模态特征学习,从而在数据不足的情况下提高模型表现。评估结果显示,MiniGPT-5在多个数据集上均取得最先进的生成效果。该技术为增强多模态生成能力提供了新的思路。

MiniGPT-5 多模态生成视觉语言生成

发表评论

取消回复