手機、平板、電腦、電視,屏幕越來越多,操作越來越複雜,是不是讓你眼花繚亂?蘋果最近丟出一個王炸——Ferret-UI2,一個超強 UI 理解模型,號稱要統一江湖!這可不是吹牛,Ferret-UI2的目標是成爲一個真正的六邊形戰士,能在各種平臺上理解用戶界面,不管是iPhone、Android、iPad、網頁還是AppleTV,它都能輕鬆拿下。Ferret-UI2的一大亮點是它對多平臺的支持。與僅限於移動平臺的Ferret-UI不同,Ferret-UI2能夠理解來自平板電腦、網頁和智能電視等各種設備的UI屏幕。這種多平臺支持使其能夠適應當
蘋果公司近日發佈了新一代人工智能系統Ferret-UI2。這款跨平臺AI助手在UI元素識別方面取得重大突破,測試得分達89.73,大幅領先GPT-4V的77.73分,展現出卓越的性能表現。這套系統最大的特點在於其智能理解用戶意圖的能力。不同於傳統基於座標點擊的操作方式,Ferret-UI2能夠根據用戶的自然語言指令,自動定位並執行相應操作。研究團隊通過藉助GPT-4V的視覺能力生成訓練數據,使系統能夠更好地理解界面元素之間的空間關係。在技術架構上,Ferret-UI2採用了自適應設計,可在iPhone、iPad、安卓
["蘋果與康奈爾大學合作發佈開源多模態機器學習模型Ferret","Ferret是一個可以在圖像中的任何位置、以任何精度、使用任何形狀的區域進行參考和定位的系統","Ferret可以識別圖像中的元素,並將其作爲查詢的一部分進行響應","這一開源發佈證明了蘋果對有影響力的AI研究的承諾","蘋果願意更加開放地在AI工作上進行合作"]
["蘋果和哥倫比亞大學研究人員共同開發了Ferret多模態語言模型,旨在實現高級圖像理解和描述。","Ferret模型具備強大的全局理解能力,能夠處理自由文本和引用區域,性能領先傳統模型。","研究人員創建了GRIT數據集,包括1.1百萬個樣本,用於指導模型進行引用和定位任務。","Ferret-Bench評估顯示,Ferret性能平均優於最佳MLLM模型20.4%,並減少了對象幻覺。"]
基於Llama-3-8B的多模態大型語言模型,專注於UI任務。
針對移動UI屏幕設計的MLLLM模型
端到端MLLM,實現精準引用和定位
Ferret | 在您的口袋中獲取關係智能
jadechoghari
Ferret-UI是首個專注於用戶界面的多模態大語言模型(MLLM),基於Llama-3-8B構建,能夠執行復雜的UI任務,如引用、定位和推理。
Ferret-UI是首個專注於用戶界面的多模態大語言模型,基於Gemma-2B構建,專為UI引用、定位和推理任務設計。