视觉语言模型 BLIVA: 让 AI 更擅长阅读图像中的文本懂得看路牌和食品包装

6 月 06, 2025 AI前沿

21 0

JS滚动广告

✨ AI前沿 | 每日人工智能最新资讯 ✨

BLIVA 是一种视觉语言模型，旨在更好地处理包含文本的图像。它结合了学习查询嵌入和编码修补嵌入，并在多个数据集上表现出色。BLIVA 的应用领域包括识别路牌、食品包装等场景，有望在实际应用中改善文本识别的准确率和效果。

导航菜单