阿里巴巴Qwen團隊推出Mobile-Agent-v3和GUI-Owl,旨在解決圖形用戶界面自動化挑戰。基於Qwen2.5-VL的GUI-Owl通過多模態代理模型和大量GUI交互數據訓練,顯著提升任務理解能力,突破傳統依賴複雜腳本和手工規則的侷限。
X-PLUG團隊發佈Mobile-Agent-v3跨平臺多代理框架,基於GUI-Owl模型,具備規劃、進度管理、反思和記憶能力,提升GUI自動化體驗。該原生端到端多模態代理融合感知、推理、規劃與執行功能,支持流暢跨平臺交互和多回合決策。
阿里巴巴發佈第三代GUI智能體框架Mobile-Agent-v3,並開源多模態跨平臺GUI虛擬層模型GUI-Owl。該技術組合在10餘項權威基準測試中表現卓越,尤其在AndroidWorld和OSWorld平臺分別創下73.3%和37.7%的成功率記錄,標誌着GUI自動化技術取得重大突破。
Alibaba
$2
輸入tokens/百萬
$20
輸出tokens/百萬
-
上下文長度
Bytedance
$3.5
$12
128
microsoft
GUI-Actor-2B是基於Qwen2-VL-2B的視覺語言模型,專為圖形用戶界面(GUI)定位任務設計,通過增加基於注意力的動作頭並進行微調,在多個GUI定位基準測試中表現良好。
GUI-Actor-7B是基於Qwen2-VL-7B-Instruct開發的視覺語言模型,專注於圖形用戶界面(GUI)代理任務,提供無座標的視覺接地解決方案。