面壁智能与清华大学联合推出端侧GUI智能体:AgentCPM-GUI

JS滚动广告
✨ AI前沿 | 每日人工智能最新资讯 ✨

近日,清华大学THUNLP实验室联合面壁智能推出了一款创新的端侧GUI Agent——**AgentCPM-GUI**,为移动设备的人机交互带来全新突破。该智能体基于**MiniCPM-V**模型构建,总参数量仅**8B**,以手机屏幕图像为输入,支持中英文操作,可自动执行用户提出的任务,展现出强大的GUI元素定位能力。
AgentCPM-GUI覆盖了包括**高德地图**、**大众点评**、**B站**、**小红书**在内的**30多个主流中文APP**,能够精准识别和操作APP界面元素,满足多样化的用户需求。无论是导航、点餐还是内容浏览,AgentCPM-GUI都能高效完成任务,极大提升了用户体验。
值得一提的是,该模型通过**RFT(推理前思考)**技术增强了规划推理能力。在执行用户指令前,AgentCPM-GUI会先进行推理思考,生成更准确的动作序列,从而提升任务执行的成功率和可靠性。这一技术的应用使其在端侧AI领域表现尤为突出。
作为一款轻量级高性能模型,AgentCPM-GUI在手机等端侧设备上运行流畅,展现了清华大学THUNLP实验室与面壁智能在AI技术上的深厚实力。未来,这款GUI Agent有望进一步推动端侧AI的普及与应用,助力智能设备迈向更高效的交互时代。

面壁智能与清华大学联合推出端侧GUI智能体:AgentCPM-GUI

清华大学与面壁智能团队联合发布了开源端侧GUI Agent——AgentCPM-GUI。以下是关于该模型的详细介绍:

模型概述
AgentCPM-GUI是基于MiniCPM-V(80亿参数)构建的端侧GUI智能体模型,针对中文应用进行了优化,能够接受智能手机截图作为输入,并自主执行用户指定的任务。

主要功能

发表评论