阶跃星辰发布首个开源GUI智能体“GELab-Zero”,包含即插即用推理基础设施和4B GUI Agent模型。其轻量级设计支持消费级硬件本地运行,实现低延迟响应并保护用户隐私,提供高效便捷的智能体体验。
阿里巴巴Qwen团队推出Mobile-Agent-v3和GUI-Owl,旨在解决图形用户界面自动化挑战。基于Qwen2.5-VL的GUI-Owl通过多模态代理模型和大量GUI交互数据训练,显著提升任务理解能力,突破传统依赖复杂脚本和手工规则的局限。
X-PLUG团队发布Mobile-Agent-v3跨平台多代理框架,基于GUI-Owl模型,具备规划、进度管理、反思和记忆能力,提升GUI自动化体验。该原生端到端多模态代理融合感知、推理、规划与执行功能,支持流畅跨平台交互和多回合决策。
阿里巴巴发布第三代GUI智能体框架Mobile-Agent-v3,并开源多模态跨平台GUI虚拟层模型GUI-Owl。该技术组合在10余项权威基准测试中表现卓越,尤其在AndroidWorld和OSWorld平台分别创下73.3%和37.7%的成功率记录,标志着GUI自动化技术取得重大突破。
Guideflow是先进的交互式产品演示平台,可提升生产力与转化率。
使用MarketingGuide AI在几分钟内创建您的整个营销策略,无需专业营销知识。
开源的手机端 GUI 智能代理,支持中英文应用操作。
ScoutDB是一个聚合型Mongo GUI,通过美观的画布体验,让您以自然语言运行查询,通过自动映射浏览数据关系,使数据浏览速度提高90%。
Alibaba
$2
输入tokens/百万
$20
输出tokens/百万
-
上下文长度
Bytedance
$3.5
$12
128
prithivMLmods
ActIO-UI-7B-RLVR 是由 Uniphore 发布的 70 亿参数视觉语言模型,专门用于计算机界面自动化任务。它基于 Qwen2.5-VL-7B-Instruct,通过监督微调和可验证奖励的强化学习进行优化,在 GUI 导航、元素定位和交互规划等任务上表现出色,在 WARC-Bench 基准测试中达到了开源 7B 模型的领先水平。
Guilherme34
Qwen3-32B是Qwen系列最新一代的大语言模型,具备强大的推理、指令遵循、智能体交互和多语言处理能力。它支持100多种语言和方言,能在思维模式和非思维模式间无缝切换,为用户提供自然流畅的对话体验。
noctrex
Gelato-30B-A3B是针对GUI计算机使用任务进行微调的最先进(SOTA)模型,提供了量化版本以优化部署效率。该模型专门设计用于理解和处理图形用户界面相关的任务。
mlfoundations
Gelato-30B-A3B 是一款用于GUI计算机使用任务的最先进基础模型,在Click-100k数据集上训练,在多个基准测试中超越了之前的专业计算机基础模型和更大的视觉语言模型。
Qwen2.5-14B-Instruct是基于Qwen2.5架构的多语言大语言模型,拥有140亿参数,支持13种语言,具备优秀的指令跟随和对话能力。该模型在多种语言任务上表现优异,适用于多语言场景的文本生成和理解。
Salesforce
GTA1是基于GRPO强化学习训练的GUI接地模型,专门用于图形用户界面自动化操作。相较于依赖冗长思维链推理的方法,GRPO直接激励可操作和有根据的响应,在多个基准测试中表现出卓越的接地性能。
GTA1是基于强化学习(GRPO)训练的最先进GUI接地模型,专门用于图形用户界面自动化任务。与依赖冗长思维链推理的方法不同,GRPO直接激励可操作和有根据的响应,在多个挑战性数据集上展示了卓越的接地性能和代理性能。
Qwen2.5-14B-Instruct是一个140亿参数的大语言模型,专为聊天和文本生成场景设计。该模型基于transformers库构建,适用于内部测试和轻量级应用部署。
OpenGVLab
InternVL3.5是开源多模态模型家族的新成员,显著提升了InternVL系列的通用性、推理能力和推理效率,支持GUI交互等新功能,达到开源多模态大语言模型的先进水平。
InternVL3.5-14B是InternVL系列的开源多模态模型,显著提升了通用性、推理能力和推理效率,支持GUI交互等新功能,缩小了与商业模型的性能差距。
InternVL3.5-4B是开源多模态模型系列中的中等规模版本,在通用性、推理能力和推理效率上取得显著进展,支持GUI交互等新能力。该模型采用级联强化学习框架和视觉分辨率路由器技术,实现了高效的多模态理解与推理。
InternVL3.5-1B是InternVL系列的开源多模态模型,参数量为1.1B,包含0.3B视觉参数和0.8B语言参数。该模型显著提升了通用性、推理能力和推理效率,支持GUI交互等新功能。
HelloKKMe
GTA1是基于强化学习(GRPO)训练的最先进GUI定位模型,通过直接激励可操作响应而非冗长推理,实现精准界面元素定位。
GTA1是一个基于强化学习(GRPO)的GUI定位模型,通过直接奖励成功点击来实现精准定位,避免冗长的思维链推理。
microsoft
GUI-Actor-2B是基于Qwen2-VL-2B的视觉语言模型,专为图形用户界面(GUI)定位任务设计,通过增加基于注意力的动作头并进行微调,在多个GUI定位基准测试中表现良好。
GUI-Actor-7B是基于Qwen2-VL-7B-Instruct开发的视觉语言模型,专注于图形用户界面(GUI)代理任务,提供无坐标的视觉接地解决方案。
lmstudio-community
基于Transformer架构的图像文本到文本生成模型,专为计算机/GUI相关场景设计,具备智能代理能力。
unsloth
InternVL3-78B-Instruct是一个先进的多模态大语言模型,在多模态感知、推理和语言处理等方面表现出色。该模型通过原生多模态预训练方法,将视觉和语言学习整合到统一训练阶段,在工具使用、GUI代理、工业图像分析、3D视觉感知等多个领域展现出卓越能力。
InternVL3-14B-Instruct 是一个先进的多模态大语言模型(MLLM),展示了卓越的多模态感知和推理能力,支持工具使用、GUI代理、工业图像分析、3D视觉感知等多种任务。
InternVL3-2B-Instruct是先进的多模态大语言模型,相比前代有更出色的多模态感知和推理能力,扩展了工具使用、GUI代理、工业图像分析、3D视觉感知等方面。采用原生多模态预训练方法,将语言和视觉学习整合到单个预训练阶段。
Clippy是macOS终端剪贴板工具,支持文件引用复制、GUI粘贴、最近下载管理、管道数据处理和MCP服务器AI集成,提升工作效率。
MetaTool MCP Server是一个代理服务器,用于连接多个MCP服务器并将工具调用转发到适当的服务器。它与metatool-app配合使用,提供GUI工具管理功能。项目已弃用,推荐使用Node.js替代版本。
一个基于PyAutoGUI的MCP服务器,提供自动化GUI测试和控制功能,支持跨平台操作。
这是一个为RPG Maker MZ游戏开发提供完整MCP服务器的工具,支持通过MCP工具和AI(Gemini)自动生成游戏项目、地图、事件、数据库内容及游戏资产,实现无需GUI的编程式或AI驱动式游戏开发。
这是一个基于OmniParser的MCP服务器项目,能够自动分析屏幕内容并操作GUI界面,主要支持Windows系统。
基于MCP与QWEN大模型的自然语言MySQL数据库查询系统,提供GUI界面支持
这是一个基于OmniParser的MCP服务器,能够分析屏幕内容并自动操作GUI界面,主要在Windows系统上运行。
一个通过MCP协议执行JMeter测试的服务,支持GUI和非GUI模式运行测试脚本。
一个基于MCP协议的编程规范管理服务器,用于统一管理和分发编程指南与规则
Scenic MCP是一个用于Scenic GUI应用的外部输入控制协议服务器,支持通过TCP连接注入键盘和鼠标输入到Scenic应用程序中。
一个用于SAP GUI自动化的MCP服务器,提供程序化控制SAP交易的工具,包括启动交易、界面交互和屏幕捕获等功能。
基于PyAutoGUI的GUI自动化测试与控制MCP服务
一个基于异步Python的极速网站克隆工具,支持JavaScript渲染、认证绕过和AI代理集成,提供桌面GUI和命令行界面。
MCP Manager GUI是一个简化MCP服务器管理的工具,提供用户友好的界面、跨平台支持、实时监控和AI集成功能。
PyMCPAutoGUI是一个通过MCP协议为AI代理提供图形用户界面(GUI)自动化能力的工具,支持鼠标键盘控制、屏幕截图、窗口管理等操作,可无缝集成Cursor编辑器等MCP兼容环境。
一个提供22种SAP GUI自动化工具的MCP服务器,支持Python和TypeScript双版本实现,包含连接管理、导航操作、数据输入输出等完整SAP自动化功能
该项目是一个通过串口操作TinySA设备的MCP服务器,提供基于Python的工具接口,支持命令执行、版本获取、图像捕获等功能,采用Tkinter GUI与多线程架构设计。