階躍星辰發佈首個開源GUI智能體“GELab-Zero”,包含即插即用推理基礎設施和4B GUI Agent模型。其輕量級設計支持消費級硬件本地運行,實現低延遲響應並保護用戶隱私,提供高效便捷的智能體體驗。
阿里巴巴Qwen團隊推出Mobile-Agent-v3和GUI-Owl,旨在解決圖形用戶界面自動化挑戰。基於Qwen2.5-VL的GUI-Owl通過多模態代理模型和大量GUI交互數據訓練,顯著提升任務理解能力,突破傳統依賴複雜腳本和手工規則的侷限。
X-PLUG團隊發佈Mobile-Agent-v3跨平臺多代理框架,基於GUI-Owl模型,具備規劃、進度管理、反思和記憶能力,提升GUI自動化體驗。該原生端到端多模態代理融合感知、推理、規劃與執行功能,支持流暢跨平臺交互和多回合決策。
阿里巴巴發佈第三代GUI智能體框架Mobile-Agent-v3,並開源多模態跨平臺GUI虛擬層模型GUI-Owl。該技術組合在10餘項權威基準測試中表現卓越,尤其在AndroidWorld和OSWorld平臺分別創下73.3%和37.7%的成功率記錄,標誌着GUI自動化技術取得重大突破。
Guideflow是先進的交互式產品演示平臺,可提升生產力與轉化率。
使用MarketingGuide AI在幾分鐘內創建您的整個營銷策略,無需專業營銷知識。
開源的手機端 GUI 智能代理,支持中英文應用操作。
ScoutDB是一個聚合型Mongo GUI,通過美觀的畫布體驗,讓您以自然語言運行查詢,通過自動映射瀏覽數據關係,使數據瀏覽速度提高90%。
Alibaba
$2
輸入tokens/百萬
$20
輸出tokens/百萬
-
上下文長度
Bytedance
$3.5
$12
128
Guilherme34
Qwen3-32B是Qwen系列最新一代的大語言模型,具備強大的推理、指令遵循、智能體交互和多語言處理能力。它支持100多種語言和方言,能在思維模式和非思維模式間無縫切換,為用戶提供自然流暢的對話體驗。
noctrex
Gelato-30B-A3B是針對GUI計算機使用任務進行微調的最先進(SOTA)模型,提供了量化版本以優化部署效率。該模型專門設計用於理解和處理圖形用戶界面相關的任務。
mlfoundations
Gelato-30B-A3B 是一款用於GUI計算機使用任務的最先進基礎模型,在Click-100k數據集上訓練,在多個基準測試中超越了之前的專業計算機基礎模型和更大的視覺語言模型。
Qwen2.5-14B-Instruct是基於Qwen2.5架構的多語言大語言模型,擁有140億參數,支持13種語言,具備優秀的指令跟隨和對話能力。該模型在多種語言任務上表現優異,適用於多語言場景的文本生成和理解。
Salesforce
GTA1是基於GRPO強化學習訓練的GUI接地模型,專門用於圖形用戶界面自動化操作。相較於依賴冗長思維鏈推理的方法,GRPO直接激勵可操作和有根據的響應,在多個基準測試中表現出卓越的接地性能。
GTA1是基於強化學習(GRPO)訓練的最先進GUI接地模型,專門用於圖形用戶界面自動化任務。與依賴冗長思維鏈推理的方法不同,GRPO直接激勵可操作和有根據的響應,在多個挑戰性數據集上展示了卓越的接地性能和代理性能。
Qwen2.5-14B-Instruct是一個140億參數的大語言模型,專為聊天和文本生成場景設計。該模型基於transformers庫構建,適用於內部測試和輕量級應用部署。
OpenGVLab
InternVL3.5是開源多模態模型家族的新成員,顯著提升了InternVL系列的通用性、推理能力和推理效率,支持GUI交互等新功能,達到開源多模態大語言模型的先進水平。
InternVL3.5-4B是開源多模態模型系列中的中等規模版本,在通用性、推理能力和推理效率上取得顯著進展,支持GUI交互等新能力。該模型採用級聯強化學習框架和視覺分辨率路由器技術,實現了高效的多模態理解與推理。
InternVL3.5-14B是InternVL系列的開源多模態模型,顯著提升了通用性、推理能力和推理效率,支持GUI交互等新功能,縮小了與商業模型的性能差距。
InternVL3.5-1B是InternVL系列的開源多模態模型,參數量為1.1B,包含0.3B視覺參數和0.8B語言參數。該模型顯著提升了通用性、推理能力和推理效率,支持GUI交互等新功能。
HelloKKMe
GTA1是基於強化學習(GRPO)訓練的最先進GUI定位模型,通過直接激勵可操作響應而非冗長推理,實現精準界面元素定位。
GTA1是一個基於強化學習(GRPO)的GUI定位模型,通過直接獎勵成功點擊來實現精準定位,避免冗長的思維鏈推理。
microsoft
GUI-Actor-2B是基於Qwen2-VL-2B的視覺語言模型,專為圖形用戶界面(GUI)定位任務設計,通過增加基於注意力的動作頭並進行微調,在多個GUI定位基準測試中表現良好。
GUI-Actor-7B是基於Qwen2-VL-7B-Instruct開發的視覺語言模型,專注於圖形用戶界面(GUI)代理任務,提供無座標的視覺接地解決方案。
lmstudio-community
基於Transformer架構的圖像文本到文本生成模型,專為計算機/GUI相關場景設計,具備智能代理能力。
unsloth
InternVL3-78B-Instruct是一個先進的多模態大語言模型,在多模態感知、推理和語言處理等方面表現出色。該模型通過原生多模態預訓練方法,將視覺和語言學習整合到統一訓練階段,在工具使用、GUI代理、工業圖像分析、3D視覺感知等多個領域展現出卓越能力。
InternVL3-14B-Instruct 是一個先進的多模態大語言模型(MLLM),展示了卓越的多模態感知和推理能力,支持工具使用、GUI代理、工業圖像分析、3D視覺感知等多種任務。
InternVL3-2B-Instruct是先進的多模態大語言模型,相比前代有更出色的多模態感知和推理能力,擴展了工具使用、GUI代理、工業圖像分析、3D視覺感知等方面。採用原生多模態預訓練方法,將語言和視覺學習整合到單個預訓練階段。
InternVL3-78B是一款先進的多模態大語言模型,具備卓越的多模態感知和推理能力,在工具使用、GUI代理、工業圖像分析、3D視覺感知等領域表現出色,整體文本性能也十分優秀。
Clippy是macOS終端剪貼板工具,支持文件引用複製、GUI粘貼、最近下載管理、管道數據處理和MCP服務器AI集成,提升工作效率。
Scenic MCP是一個用於Scenic GUI應用的外部輸入控制協議服務器,支持通過TCP連接注入鍵盤和鼠標輸入到Scenic應用程序中。
一個用於SAP GUI自動化的MCP服務器,提供程序化控制SAP交易的工具,包括啟動交易、界面交互和屏幕捕獲等功能。
這是一個基於OmniParser的MCP服務器,能夠分析屏幕內容並自動操作GUI界面,主要在Windows系統上運行。
這是一個基於OmniParser的MCP服務器項目,能夠自動分析屏幕內容並操作GUI界面,主要支持Windows系統。
基於MCP與QWEN大模型的自然語言MySQL數據庫查詢系統,提供GUI界面支持
一個通過MCP協議執行JMeter測試的服務,支持GUI和非GUI模式運行測試腳本。
基於PyAutoGUI的GUI自動化測試與控制MCP服務
這是一個為RPG Maker MZ遊戲開發提供完整MCP服務器的工具,支持通過MCP工具和AI(Gemini)自動生成遊戲項目、地圖、事件、數據庫內容及遊戲資產,實現無需GUI的編程式或AI驅動式遊戲開發。
一個基於MCP協議的編程規範管理服務器,用於統一管理和分發編程指南與規則
MetaTool MCP Server是一個代理服務器,用於連接多個MCP服務器並將工具調用轉發到適當的服務器。它與metatool-app配合使用,提供GUI工具管理功能。項目已棄用,推薦使用Node.js替代版本。
一個基於PyAutoGUI的MCP服務器,提供自動化GUI測試和控制功能,支持跨平臺操作。
PyMCPAutoGUI是一個通過MCP協議為AI代理提供圖形用戶界面(GUI)自動化能力的工具,支持鼠標鍵盤控制、屏幕截圖、窗口管理等操作,可無縫集成Cursor編輯器等MCP兼容環境。
一個提供22種SAP GUI自動化工具的MCP服務器,支持Python和TypeScript雙版本實現,包含連接管理、導航操作、數據輸入輸出等完整SAP自動化功能
該項目是一個通過串口操作TinySA設備的MCP服務器,提供基於Python的工具接口,支持命令執行、版本獲取、圖像捕獲等功能,採用Tkinter GUI與多線程架構設計。
一個基於異步Python的極速網站克隆工具,支持JavaScript渲染、認證繞過和AI代理集成,提供桌面GUI和命令行界面。
MCP Manager GUI是一個簡化MCP服務器管理的工具,提供用戶友好的界面、跨平臺支持、即時監控和AI集成功能。