阿里巴巴Qwen团队推出Mobile-Agent-v3和GUI-Owl,旨在解决图形用户界面自动化挑战。基于Qwen2.5-VL的GUI-Owl通过多模态代理模型和大量GUI交互数据训练,显著提升任务理解能力,突破传统依赖复杂脚本和手工规则的局限。
X-PLUG团队发布Mobile-Agent-v3跨平台多代理框架,基于GUI-Owl模型,具备规划、进度管理、反思和记忆能力,提升GUI自动化体验。该原生端到端多模态代理融合感知、推理、规划与执行功能,支持流畅跨平台交互和多回合决策。
阿里巴巴发布第三代GUI智能体框架Mobile-Agent-v3,并开源多模态跨平台GUI虚拟层模型GUI-Owl。该技术组合在10余项权威基准测试中表现卓越,尤其在AndroidWorld和OSWorld平台分别创下73.3%和37.7%的成功率记录,标志着GUI自动化技术取得重大突破。
Alibaba
$2
输入tokens/百万
$20
输出tokens/百万
-
上下文长度
Bytedance
$3.5
$12
128
microsoft
GUI-Actor-2B是基于Qwen2-VL-2B的视觉语言模型,专为图形用户界面(GUI)定位任务设计,通过增加基于注意力的动作头并进行微调,在多个GUI定位基准测试中表现良好。
GUI-Actor-7B是基于Qwen2-VL-7B-Instruct开发的视觉语言模型,专注于图形用户界面(GUI)代理任务,提供无坐标的视觉接地解决方案。