清华&智谱AI发布多模态大模型CogVLM

JS滚动广告
✨ AI前沿 | 每日人工智能最新资讯 ✨

清华KEG&智谱AI发布了多模态大模型CogVLM,这一新一代SOTA模型实现了视觉语言特征的深度融合。CogVLM-17B在多个数据集上获得了SOTA或第二名的成绩,具备出色的性能。该模型的结构包括ViT编码器、MLP适配器、预训练大语言模型和视觉专家模块。CogVLM已经在15亿张图文对上进行预训练,并在多模态基准上展现了令人满意的效果。与其他模型相比,CogVLM在图像理解、模型幻觉和文本识别方面都表现出出色的效果。此外,该模型已经开源,以促进多模态模型在研究和应用领域的进一步发展。这一发布旨在推动多模态基座模型的研究,以实现多模态理解,为智能应用打下坚实基础。

发表评论