苹果AI在中国市场迈出关键一步。自2026年1月2日起,苹果对部分国行设备启动“Apple 智能与 Siri”灰度测试。参与测试的iPhone 16 Plus等机型需升级至iOS 26.2,用户界面中原“Siri”设置项已更名,并新增“图乐园”AI图像生成应用图标,标志着苹果AI功能正逐步落地。
2025年末,Anthropic旗下Claude Code推出可视化扩展工具“Claude Code Workflow Studio”,通过拖拽式画布界面,让用户无需编写复杂代码或命令即可构建和执行高级AI自动化工作流,显著降低了非专业开发者的使用门槛,标志着该工具向无代码方向演进。
OpenAI为ChatGPT推出“格式化模块”功能,用户可在聊天界面直接使用富文本编辑工具,如加粗、斜体等,无需借助外部编辑器,提升了结构化内容创作的便捷性。
谷歌推出A2UI新标准,让AI能直接生成图形界面元素,如按钮和表单,提升交互体验。传统AI交互依赖文本,处理复杂任务繁琐。A2UI开源项目规范AI生成视觉响应,使客服等场景能即时创建界面,简化操作流程。
为iPhone和iPad创建独特的视觉效果。
利用 AI 将您的创意变为现实,生成美观的应用程序。
下一代原生GUI代理模型,能够无缝与图形用户界面交互。
UI-TARS 是一个用于自动化图形用户界面交互的下一代原生 GUI 代理模型。
Xai
$1.4
Input tokens/M
$3.5
Output tokens/M
2k
Context Length
Openai
-
Google
$2.1
$17.5
1k
Bytedance
$12
128
Anthropic
$21
$105
200
$525
$1050
$420
Baichuan
$16
192
Baidu
Iflytek
$8
8
Moonshot
$2
$10
$1.05
$4.2
$30
131
$70
$210
noctrex
Gelato-30B-A3B是针对GUI计算机使用任务进行微调的最先进(SOTA)模型,提供了量化版本以优化部署效率。该模型专门设计用于理解和处理图形用户界面相关的任务。
Salesforce
GTA1是基于GRPO强化学习训练的GUI接地模型,专门用于图形用户界面自动化操作。相较于依赖冗长思维链推理的方法,GRPO直接激励可操作和有根据的响应,在多个基准测试中表现出卓越的接地性能。
GTA1是基于强化学习(GRPO)训练的最先进GUI接地模型,专门用于图形用户界面自动化任务。与依赖冗长思维链推理的方法不同,GRPO直接激励可操作和有根据的响应,在多个挑战性数据集上展示了卓越的接地性能和代理性能。
microsoft
GUI-Actor-2B是基于Qwen2-VL-2B的视觉语言模型,专为图形用户界面(GUI)定位任务设计,通过增加基于注意力的动作头并进行微调,在多个GUI定位基准测试中表现良好。
GUI-Actor-7B是基于Qwen2-VL-7B-Instruct开发的视觉语言模型,专注于图形用户界面(GUI)代理任务,提供无坐标的视觉接地解决方案。
Hcompany
Holo1-3B是由HCompany开发的动作视觉语言模型(VLM),专为Surfer-H网络代理系统设计,能够像人类用户一样与网页界面进行交互。
LZXzju
UI-R1-E-3B是基于Qwen2.5-VL-3B-Instruct微调的高效GUI定位模型,专注于视觉问答任务,特别擅长在用户界面截图中定位和识别操作元素。
HelloKKMe
GTA1是一个基于强化学习(GRPO)的GUI元素定位模型,能够精准定位图形用户界面中的元素。
parasail-ai
UI-TARS是下一代原生GUI智能体模型,具备类人的感知、推理和行动能力,可与图形用户界面(GUI)实现无缝交互。
UI-TARS是下一代原生GUI代理模型,具备类人感知、推理和行动能力,可与图形用户界面(GUI)进行无缝交互。
Tesslate
UIGEN-T1.5是基于Qwen2.5-Coder-32B-Instruct微调的先进Transformer UI生成模型,专门用于生成现代且独特的前端用户界面。
基于Qwen2.5-Coder-14B-Instruct微调的高级Transformer界面生成模型,擅长生成现代且独特的前端用户界面
Fintor
Fintor-GUI-S2 是一个基于 UI-TARS-7B-DPO 微调的 GUI 基础模型,专注于图形用户界面(GUI)的多模态任务。
ByteDance-Seed
UI-TARS 是新一代原生图形用户界面(GUI)智能体模型,旨在通过类人的感知、推理和行动能力与图形用户界面无缝交互。
UI-TARS 是新一代原生图形用户界面(GUI)代理模型,旨在通过类人的感知、推理和行动能力,无缝地与图形用户界面交互。
bytedance-research
UI-TARS是新一代原生图形用户界面(GUI)代理模型,旨在通过类人的感知、推理和行动能力与图形用户界面无缝交互。
OmniParser是一款通用屏幕解析工具,能够将用户界面截图解释/转换为结构化格式,以改进现有基于大语言模型(LLM)的UI代理。
Jl-wei
GUIClip是一个专注于图形用户界面(GUI)领域的视觉语言模型,适用于GUI相关任务。
biglab
UIClip 是一个用于量化用户界面(UI)截图在给定文本描述下的设计质量和相关性的模型。
UIClip 是一个通过文本描述量化用户界面(UI)截图设计质量与相关性的多模态模型。
该项目通过Model Context Protocol (MCP)为MLflow提供自然语言交互界面,使用户能用英语查询和管理机器学习实验与模型,包含服务端和客户端组件。
EspoCRM MCP服务器是一个全面的模型上下文协议服务器,提供与EspoCRM的无缝集成,支持47种工具进行完整的CRM操作,包括联系人、账户、机会、会议、用户、任务、线索管理以及团队、角色、实体关系等高级功能,并包含AI聊天机器人界面。
这是一个实现MCP应用扩展规范的示例项目,允许通过MCP工具调用交互式HTML/JS用户界面,包含服务器端和客户端演示。
Pocket MCP Manager是一个灵活的MCP服务器管理系统,采用客户端-服务器架构,通过中央界面简化多MCP服务器的管理。它允许用户集中添加服务器、选择性启动、生成API密钥并通过单一代理连接,适用于Claude、Cursor等客户端。
UIFlowchartCreator是一个用于创建UI流程图的MCP服务器工具,帮助开发者和设计师可视化用户界面及其交互。
Glutamate MCP Servers是一个包含多种MCP服务器的项目,支持通过Glutamate平台轻松部署和管理。项目提供自定义服务器如UI Assist,并支持所有基于Node的stdio和sse协议服务器。
一个基于Python的交易助手,通过Zerodha MCP服务器连接,帮助用户管理交易账户,提供自然语言交互界面和多种交易功能。
一个基于React的现代浏览器应用,提供用户友好的界面,通过服务器发送事件(SSE)与模型上下文协议(MCP)服务器进行实时交互,支持主题切换、截图预览和消息历史等功能。
NiFi MCP项目提供了一个基于自然语言交互的聊天界面,允许用户通过LLM模型与Apache NiFi实例进行交互,支持查询、文档化和操作NiFi组件。
EOxElements是一个由EOX开发的Web组件集合,专注于地理空间用户界面元素,包含地图、图表、绘图工具、图层控制、时间控制、表单渲染、搜索过滤等多种组件,用于构建地理空间应用。
一个用于AI辅助开发工具的人类反馈循环MCP服务器,通过交互式界面收集用户反馈,支持跨平台运行和快速反馈选项
AutoGPT是一个开源AI代理框架,旨在让每个人都能轻松构建和使用AI代理。项目提供Forge工具链简化开发流程,包含基准测试、用户界面和CLI工具,支持通过Agent Protocol标准实现兼容性,并设有竞技场排行榜激励开发者优化代理性能。
TestingBot官方MCP服务器,使AI助手能够通过对话界面管理TestingBot的测试基础设施,包括实时测试、浏览器设备管理、测试管理、存储管理、截图测试、构建管理、用户团队管理、CDP会话和隧道管理等功能。
这是一个现代化、响应式的登录页面实现,具有直观的用户界面和丰富的交互功能,包括表单验证、密码强度检查等安全特性,使用纯前端技术实现。
一个基于Streamlit的MCPAgent交互应用,具备对话记忆、网络搜索和模型选择功能,提供现代响应式用户界面。
JLCPCB Parts MCP Server是一个帮助用户查找JLCPCB PCBA服务兼容组件的服务器项目,提供快速搜索、用户友好界面和最新组件数据。
MCP服务器用于构建用户界面
AutoGPT是一个开源的AI代理工具包,提供模块化和可扩展的框架,支持用户构建、测试和监控AI代理。项目包含Forge创新实验室、Benchmark测试环境和用户友好的前端界面,采用Agent Protocol标准化通信。社区活跃,定期举办黑客马拉松等活动推动创新。
MCP Yahoo Finance Server 是一个基于 Yahoo Finance API 的工具,用于获取实时股票数据、公司信息和历史价格数据。它集成了多客户端协议(MCP)框架,提供客户端与服务器之间的无缝通信,并包含一个基于 FastAPI 和 DaisyUI 的 Web UI,支持用户通过直观界面交互。项目还整合了 Azure OpenAI 用于自然语言查询处理。
该项目通过搭建多个MCP服务端(数学计算、天气查询、LLM选择)和客户端,实现了一个基于Langchain的聊天机器人系统。用户可通过Streamlit界面与机器人交互。