多模态大模型MMICL表现抢眼 支持文本图像视频输入

JS滚动广告
✨ AI前沿 | 每日人工智能最新资讯 ✨

北京交通大学等机构推出了新多模态大模型MMICL,它支持文本、图像、视频三种模态混合输入,在多项多模态能力评测中表现抢眼。MMICL采用两阶段训练,可实现“现学现卖”,已开源Flan版和Vicuna版,性能不断优化,可望成为多模态领域新宠。

发表评论