开源的UI-TARS-1.5智能体模型:字节豆包的Seed项目

JS滚动广告
✨ AI前沿 | 每日人工智能最新资讯 ✨

《开源的UI-TARS-1.5智能体模型:字节豆包的Seed项目》相关软件官网

UI-TARS ➕

Agent TARS

字节跳动豆包大模型团队宣布开源 UI-TARS-1.5,这是一款基于视觉 – 语言模型构建的开源多模态智能体,能够在虚拟世界中高效执行各类任务。该模型在7个典型的 GUI 图形用户界面评测基准中取得了 SOTA(State-of-the-Art)表现,并首次展现了其在游戏中的长时推理能力和在开放空间中的交互能力。这一开源项目标志着多模态智能体技术在 GUI 操作和游戏推理领域取得了重要进展。
UI-TARS-1.5基于字节跳动此前提出的原生智能体方案 UI-TARS,通过强化学习进一步增强了模型的高阶推理能力,使模型能够在“行动”前先进行“思考”。这种“思考 – 再行动”机制显著提升了模型在面对未知环境和任务时的泛化能力,使得 UI-TARS-1.5在多项主流评测基准上较此前领域最优模型取得了更好表现。例如,在 GUI Grounding 能力评估中,UI-TARS-1.5在高难度的 ScreenSpotPro 上的准确率达到61.6%,超过 Claude 的27.7%、CUA 的23.4% 以及此前领域最优模型的43.6%。
在游戏任务中,UI-TARS-1.5也展现了出色的表现。团队选取了 poki.com 上14款风格各异的小游戏进行测试,模型每局最多允许1000步交互。UI-TARS-1.5在这些游戏任务中不仅展现了较好的表现,还呈现出稳定的推断时扩展性。此外,团队进一步在开放环境 Minecraft(《我的世界》游戏)中评估了 UI-TARS-1.5的能力。在 MineRL 标准评测任务中,UI-TARS-1.5在“寻找并破坏特定方块”和“搜索并击败敌对生物”两个任务中均取得了最高成功率,特别是在启用“思考模块”后表现更加突出,验证了“思考 – 再行动”机制的有效性。
UI-TARS-1.5的成功源于团队在四个维度的技术探索:视觉感知增强、System2推理机制、统一动作建模以及可自我演化的训练范式。通过这些技术,UI-TARS-1.5能够实现精准的 GUI 操作,并在复杂任务中表现出色。例如,用户想让模型“把字体调大”,通用模型往往理解模糊、操作失误,而 UI-TARS 能迅速定位“设置”入口,并基于既有知识推理出正确路径,精准完成操作。
UI-TARS 团队认为,智能体的演进正从框架(framework)向模型(model)转变。UI-TARS 属于“原生智能体模型(Agent Model)”,具备完整的感知 – 推理 – 记忆 – 行动一体化结构,能在训练中不断积累知识与经验,具备更强的泛化能力与适应能力。这种“从数据出发”的闭环范式,使得 UI-TARS 不再依赖人工规则与提示工程,也无需重复设定交互步骤,极大降低了开发门槛。
未来,UI-TARS 团队将继续通过强化学习提升 UI-TARS 在复杂任务中的性能表现,期望达到接近人类的水平,同时将继续优化 UI-TARS 的产品体验,进一步提升使用流畅度并丰富交互能力。UI-TARS-1.5的开源,为开发者和研究人员提供了一个强大的工具,推动多模态智能体技术的发展。开源地址如下:
– Arxiv:https://arxiv.org/abs/2501.12326

开源的UI-TARS-1.5智能体模型:字节豆包的Seed项目-项目/模型网址:

开源的UI-TARS-1.5智能体模型:字节豆包的Seed项目

字节跳动旗下的豆包大模型团队(Seed)于2025年4月17日正式开源了多模态智能体模型UI-TARS-1.5。以下是关于该模型的详细介绍:

UI-TARS-1.5是一款基于视觉-语言模型构建的开源多模态智能体,能够在虚拟世界中高效执行各类任务。它基于字节跳动此前提出的原生智能体方案UI-TARS,通过强化学习进一步增强了模型的高阶推理能力,使模型能够在“行动”前先进行“思考”。

视觉感知增强:依托大规模界面截图数据,模型可理解元素的语义与上下文,形成精准描述。
System 2推理机制:在动作前生成“思维(thought)”,支持复杂任务的多步规划与决策。
统一动作建模:构建跨平台标准动作空间,通过真实轨迹学习提升动作可控性与执行精度。
可自我演化的训练范式:通过自动化的交互轨迹采集与反思式训练,模型持续从错误中改进,适应复杂环境变化。

UI-TARS-1.5在7个典型的GUI图形用户界面评测基准中取得了SOTA(State-of-the-Art)表现,并首次展现了其在游戏中的长时推理能力和在开放空间中的交互能力。例如,在GUI Grounding能力评估中,UI-TARS-1.5在高难度的ScreenSpotPro上的准确率达到61.6%,超过Claude的27.7%、CUA的23.4%以及此前领域最优模型的43.6%。

游戏领域:以游戏为载体来增强基础模型的推理能力,游戏通常依赖直观的、常识性的推理,较少依赖专业知识,是评估和提升模型通用能力的理想测试场景。
GUI操作:作为一个原生GUI智能体,UI-TARS-1.5具备真实操作电脑和手机系统的能力,同时可操控浏览器、完成复杂交互任务。

发表评论