字节推多模态理解和图像定位模型LEGO 具备精准定位的能力 - AI前沿

首页 > AI技术

字节推多模态理解和图像定位模型LEGO 具备精准定位的能力

6 月 06, 2025 AI前沿

29 0

JS滚动广告

✨ AI前沿 | 每日人工智能最新资讯 ✨

字节推多模态理解和图像定位模型LEGO，由字节跳动和复旦大学联合研发，具备多种输入处理能力，包括图像、音频和视频。LEGO不仅能理解多模态数据，还能精准定位物体位置，指出视频中特定事件发生的时间点，识别音频中特定声音来源。应用领域广泛，包括内容创作、教育、娱乐、安全监控。项目工作原理涉及多模态数据处理、特征提取、融合和上下文分析，为多模态理解和图像定位领域带来重大突破。

LEGO 图像定位多模态

发表评论

取消回复