阿里巴巴通义实验室发布MAI-UI多模态GUI智能代理家族,整合人机交互、工具使用与云端协作,在通用及移动GUI导航方面表现领先,超越多个同行模型。该系统基于Qwen3VL构建,提供多种规模模型,支持自然语言指令处理。
OPPO高管姜昱辰表示,当前AI手机技术处于GUI Agent过渡阶段,未来将向Agent to Agent(A2A)模式发展。他提及近期受关注的“豆包AI手机”,指出其通过模拟点击和无障碍服务实现跨应用操作,但认为这只是技术演进中的一环。
阶跃星辰发布首个开源GUI智能体“GELab-Zero”,包含即插即用推理基础设施和4B GUI Agent模型。其轻量级设计支持消费级硬件本地运行,实现低延迟响应并保护用户隐私,提供高效便捷的智能体体验。
阿里巴巴Qwen团队推出Mobile-Agent-v3和GUI-Owl,旨在解决图形用户界面自动化挑战。基于Qwen2.5-VL的GUI-Owl通过多模态代理模型和大量GUI交互数据训练,显著提升任务理解能力,突破传统依赖复杂脚本和手工规则的局限。
macOS GUI SSH客户端,集成终端、AI助手、SFTP文件浏览器和代码编辑器,仅售12美元。
Guideless可将操作流程转化为带旁白视频指南,便于分享与嵌入
Guideflow是先进的交互式产品演示平台,可提升生产力与转化率。
使用MarketingGuide AI在几分钟内创建您的整个营销策略,无需专业营销知识。
Alibaba
$2
输入tokens/百万
$20
输出tokens/百万
-
上下文长度
Bytedance
$3.5
$12
128
prithivMLmods
ActIO-UI-7B-RLVR 是由 Uniphore 发布的 70 亿参数视觉语言模型,专门用于计算机界面自动化任务。它基于 Qwen2.5-VL-7B-Instruct,通过监督微调和可验证奖励的强化学习进行优化,在 GUI 导航、元素定位和交互规划等任务上表现出色,在 WARC-Bench 基准测试中达到了开源 7B 模型的领先水平。
Guilherme34
Qwen3-32B是Qwen系列最新一代的大语言模型,具备强大的推理、指令遵循、智能体交互和多语言处理能力。它支持100多种语言和方言,能在思维模式和非思维模式间无缝切换,为用户提供自然流畅的对话体验。
noctrex
Gelato-30B-A3B是针对GUI计算机使用任务进行微调的最先进(SOTA)模型,提供了量化版本以优化部署效率。该模型专门设计用于理解和处理图形用户界面相关的任务。
mlfoundations
Gelato-30B-A3B 是一款用于GUI计算机使用任务的最先进基础模型,在Click-100k数据集上训练,在多个基准测试中超越了之前的专业计算机基础模型和更大的视觉语言模型。
Qwen2.5-14B-Instruct是基于Qwen2.5架构的多语言大语言模型,拥有140亿参数,支持13种语言,具备优秀的指令跟随和对话能力。该模型在多种语言任务上表现优异,适用于多语言场景的文本生成和理解。
Salesforce
GTA1是基于GRPO强化学习训练的GUI接地模型,专门用于图形用户界面自动化操作。相较于依赖冗长思维链推理的方法,GRPO直接激励可操作和有根据的响应,在多个基准测试中表现出卓越的接地性能。
GTA1是基于强化学习(GRPO)训练的最先进GUI接地模型,专门用于图形用户界面自动化任务。与依赖冗长思维链推理的方法不同,GRPO直接激励可操作和有根据的响应,在多个挑战性数据集上展示了卓越的接地性能和代理性能。
Qwen2.5-14B-Instruct是一个140亿参数的大语言模型,专为聊天和文本生成场景设计。该模型基于transformers库构建,适用于内部测试和轻量级应用部署。
OpenGVLab
InternVL3.5是开源多模态模型家族的新成员,显著提升了InternVL系列的通用性、推理能力和推理效率,支持GUI交互等新功能,达到开源多模态大语言模型的先进水平。
InternVL3.5-14B是InternVL系列的开源多模态模型,显著提升了通用性、推理能力和推理效率,支持GUI交互等新功能,缩小了与商业模型的性能差距。
InternVL3.5-4B是开源多模态模型系列中的中等规模版本,在通用性、推理能力和推理效率上取得显著进展,支持GUI交互等新能力。该模型采用级联强化学习框架和视觉分辨率路由器技术,实现了高效的多模态理解与推理。
InternVL3.5-1B是InternVL系列的开源多模态模型,参数量为1.1B,包含0.3B视觉参数和0.8B语言参数。该模型显著提升了通用性、推理能力和推理效率,支持GUI交互等新功能。
HelloKKMe
GTA1是基于强化学习(GRPO)训练的最先进GUI定位模型,通过直接激励可操作响应而非冗长推理,实现精准界面元素定位。
GTA1是一个基于强化学习(GRPO)的GUI定位模型,通过直接奖励成功点击来实现精准定位,避免冗长的思维链推理。
microsoft
GUI-Actor-2B是基于Qwen2-VL-2B的视觉语言模型,专为图形用户界面(GUI)定位任务设计,通过增加基于注意力的动作头并进行微调,在多个GUI定位基准测试中表现良好。
GUI-Actor-7B是基于Qwen2-VL-7B-Instruct开发的视觉语言模型,专注于图形用户界面(GUI)代理任务,提供无坐标的视觉接地解决方案。
lmstudio-community
基于Transformer架构的图像文本到文本生成模型,专为计算机/GUI相关场景设计,具备智能代理能力。
unsloth
InternVL3-78B-Instruct是一个先进的多模态大语言模型,在多模态感知、推理和语言处理等方面表现出色。该模型通过原生多模态预训练方法,将视觉和语言学习整合到统一训练阶段,在工具使用、GUI代理、工业图像分析、3D视觉感知等多个领域展现出卓越能力。
InternVL3-14B-Instruct 是一个先进的多模态大语言模型(MLLM),展示了卓越的多模态感知和推理能力,支持工具使用、GUI代理、工业图像分析、3D视觉感知等多种任务。
InternVL3-2B-Instruct是先进的多模态大语言模型,相比前代有更出色的多模态感知和推理能力,扩展了工具使用、GUI代理、工业图像分析、3D视觉感知等方面。采用原生多模态预训练方法,将语言和视觉学习整合到单个预训练阶段。
Clippy是macOS终端剪贴板工具,支持文件引用复制、GUI粘贴、最近下载管理、管道数据处理和MCP服务器AI集成,提升工作效率。
MetaTool MCP Server是一个代理服务器,用于连接多个MCP服务器并将工具调用转发到适当的服务器。它与metatool-app配合使用,提供GUI工具管理功能。项目已弃用,推荐使用Node.js替代版本。
一个基于PyAutoGUI的MCP服务器,提供自动化GUI测试和控制功能,支持跨平台操作。
这是一个为RPG Maker MZ游戏开发提供完整MCP服务器的工具,支持通过MCP工具和AI(Gemini)自动生成游戏项目、地图、事件、数据库内容及游戏资产,实现无需GUI的编程式或AI驱动式游戏开发。
这是一个基于OmniParser的MCP服务器项目,能够自动分析屏幕内容并操作GUI界面,主要支持Windows系统。
基于MCP与QWEN大模型的自然语言MySQL数据库查询系统,提供GUI界面支持
这是一个基于OmniParser的MCP服务器,能够分析屏幕内容并自动操作GUI界面,主要在Windows系统上运行。
一个通过MCP协议执行JMeter测试的服务,支持GUI和非GUI模式运行测试脚本。
一个基于MCP协议的编程规范管理服务器,用于统一管理和分发编程指南与规则
Scenic MCP是一个用于Scenic GUI应用的外部输入控制协议服务器,支持通过TCP连接注入键盘和鼠标输入到Scenic应用程序中。
一个用于SAP GUI自动化的MCP服务器,提供程序化控制SAP交易的工具,包括启动交易、界面交互和屏幕捕获等功能。
基于PyAutoGUI的GUI自动化测试与控制MCP服务
一个基于异步Python的极速网站克隆工具,支持JavaScript渲染、认证绕过和AI代理集成,提供桌面GUI和命令行界面。
MCP Manager GUI是一个简化MCP服务器管理的工具,提供用户友好的界面、跨平台支持、实时监控和AI集成功能。
PyMCPAutoGUI是一个通过MCP协议为AI代理提供图形用户界面(GUI)自动化能力的工具,支持鼠标键盘控制、屏幕截图、窗口管理等操作,可无缝集成Cursor编辑器等MCP兼容环境。
一个提供22种SAP GUI自动化工具的MCP服务器,支持Python和TypeScript双版本实现,包含连接管理、导航操作、数据输入输出等完整SAP自动化功能
该项目是一个通过串口操作TinySA设备的MCP服务器,提供基于Python的工具接口,支持命令执行、版本获取、图像捕获等功能,采用Tkinter GUI与多线程架构设计。