手机、平板、电脑、电视,屏幕越来越多,操作越来越复杂,是不是让你眼花缭乱?苹果最近丢出一个王炸——Ferret-UI2,一个超强 UI 理解模型,号称要统一江湖!这可不是吹牛,Ferret-UI2的目标是成为一个真正的六边形战士,能在各种平台上理解用户界面,不管是iPhone、Android、iPad、网页还是AppleTV,它都能轻松拿下。Ferret-UI2的一大亮点是它对多平台的支持。与仅限于移动平台的Ferret-UI不同,Ferret-UI2能够理解来自平板电脑、网页和智能电视等各种设备的UI屏幕。这种多平台支持使其能够适应当
苹果公司近日发布了新一代人工智能系统Ferret-UI2。这款跨平台AI助手在UI元素识别方面取得重大突破,测试得分达89.73,大幅领先GPT-4V的77.73分,展现出卓越的性能表现。这套系统最大的特点在于其智能理解用户意图的能力。不同于传统基于坐标点击的操作方式,Ferret-UI2能够根据用户的自然语言指令,自动定位并执行相应操作。研究团队通过借助GPT-4V的视觉能力生成训练数据,使系统能够更好地理解界面元素之间的空间关系。在技术架构上,Ferret-UI2采用了自适应设计,可在iPhone、iPad、安卓
["苹果与康奈尔大学合作发布开源多模态机器学习模型Ferret","Ferret是一个可以在图像中的任何位置、以任何精度、使用任何形状的区域进行参考和定位的系统","Ferret可以识别图像中的元素,并将其作为查询的一部分进行响应","这一开源发布证明了苹果对有影响力的AI研究的承诺","苹果愿意更加开放地在AI工作上进行合作"]
["苹果和哥伦比亚大学研究人员共同开发了Ferret多模态语言模型,旨在实现高级图像理解和描述。","Ferret模型具备强大的全局理解能力,能够处理自由文本和引用区域,性能领先传统模型。","研究人员创建了GRIT数据集,包括1.1百万个样本,用于指导模型进行引用和定位任务。","Ferret-Bench评估显示,Ferret性能平均优于最佳MLLM模型20.4%,并减少了对象幻觉。"]
基于Llama-3-8B的多模态大型语言模型,专注于UI任务。
针对移动UI屏幕设计的MLLLM模型
端到端MLLM,实现精准引用和定位
Ferret | 在您的口袋中获取关系智能
jadechoghari
Ferret-UI是首个专注于用户界面的多模态大语言模型(MLLM),基于Llama-3-8B构建,能够执行复杂的UI任务,如引用、定位和推理。
Ferret-UI是首个专注于用户界面的多模态大语言模型,基于Gemma-2B构建,专为UI引用、定位和推理任务设计。