微软开源OmniParser,控制电脑手机的智能体

JS滚动广告
✨ AI前沿 | 每日人工智能最新资讯 ✨

最近这几天,让大模型具备控制计算机(包括电脑和手机)的相关研究和应用如雨后春笋般不断涌现。
先是 Anthropic 发布了能控制计算机的新版 Claude 3.5 Sonnet,之后荣耀 MagicOS 9.0 来了个全局智能体,再然后,昨天智谱发布了具备「全栈式工具使用能力」的 AutoGLM,同时华为也公布了一项可让 AI 像人类一样操作手机的新研究成果 LiMAC。
很显然,这股热潮完全没有要停息的意思。今天,有网友发现苹果已经默默发布了 Ferret-UI 的两个实现版本(分别基于 Gemma 2B 和 Llama 8B),这是苹果今年五月发布的一个可让 AI 理解手机屏幕的技术,详情参阅《让大模型理解手机屏幕,苹果多模态 Ferret-UI 用自然语言操控手机》。

来自 X 用户  Niels Rogge

发表评论