多模态大模型MMICL表现抢眼支持文本图像视频输入

6 月 06, 2025 AI前沿

20 0

JS滚动广告

✨ AI前沿 | 每日人工智能最新资讯 ✨

北京交通大学等机构推出了新多模态大模型MMICL,它支持文本、图像、视频三种模态混合输入,在多项多模态能力评测中表现抢眼。MMICL采用两阶段训练,可实现“现学现卖”,已开源Flan版和Vicuna版,性能不断优化,可望成为多模态领域新宠。

MMICL 多模态大模型

导航菜单