谷歌和CMU的研究揭示:视觉tokenizer助力语言模型首次战胜扩散模型

JS滚动广告
✨ AI前沿 | 每日人工智能最新资讯 ✨

最新研究由谷歌和卡内基梅隆大学(CMU)的研究人员进行,发现在图像和视频生成领域,使用良好的视觉tokenizer的语言模型首次战胜了扩散模型。这项研究为语言模型的多模态应用提供了新思路,将视觉和语言统一在相同的token空间中,提高多模态语言模型的性能,加速视频应用的处理速度,并提高视频压缩质量。同时,这一创新设计也加强了模型的鲁棒性和泛化性,揭示了语言模型在视觉生成领域的潜力。这项研究为提高大型语言模型的性能开辟了新的途径。

发表评论