Google开源AI设计工具Stitch的核心格式DESIGN.md,通过机器可读的标准化协议解决AI Agent界面生成中的品牌一致性问题。该格式整合YAML格式的设计标记(如颜色、字体参数)与纯文本注释,为AI提供直观设计准则和逻辑支撑,使其在生成符合品牌形象的UI界面时,同步遵循WCAG无障碍规则。
微软推出升级版图像生成模型MAI-Image-2-Efficient,主打低成本与高效能。该模型以近乎半价提供生产级质量,适合企业快速生成产品实拍图和UI原型图。生成速度提升22%,整体效率提高4倍,成本显著降低。
苹果发布两项机器学习研究:SQUIRE系统利用GPT-4o和槽查询中间表示,提升AI生成UI的可控性与微调效率;另一项研究则强化图像安全审查能力,旨在解决现有技术痛点。
Anthropic正为Claude开发常驻代理Conway,打造独立运行、始终在线的智能环境。它将拥有独立UI,超越传统聊天界面,作为代理工作空间运行。Conway可直接操作浏览器、连接外部工具,并集成代码功能,实现深度任务处理与代码执行。
OpenAI推出的全能型AI图像生成器,具备超高文本准确率与像素级UI设计能力。
快速文本转图像及编辑,支持海报、UI 模拟和产品视觉设计
AI 助力用户测试平台
AI辅助的视觉UI开发工具,通过精确的DOM信息和自然语言描述帮助AI准确理解您的UI修改意图。
Bytedance
$3.5
输入tokens/百万
$12
输出tokens/百万
128
上下文长度
Baidu
-
unsloth
JanusCoder-8B是基于Qwen3-8B构建的开源代码智能基础模型,旨在建立统一的视觉编程接口。该模型在JANUSCODE-800K(迄今为止最大的多模态代码语料库)上训练,能够处理各种视觉编程任务,包括数据可视化、交互式Web UI和代码驱动动画等。
Disty0
本项目是对腾讯混元图像3.0模型进行4位(UINT4,SVD秩为32)量化的成果,采用了SDNQ量化方法,专门用于文本到图像的生成任务。
Tesslate
UIGENT-30B-Lora-200是基于Qwen3-Coder-30B-A3B-Instruct微调的大语言模型,专门针对文本生成任务优化,特别擅长处理HTML相关内容,同时具备多种文本生成能力。
DevQuasar
这是 Tesslate/UIGEN-FX-4B-Preview 模型的量化版本,致力于通过量化技术让大型语言模型更易于部署和使用,实现'让知识为每个人所用'的理念。
QuantFactory
UIGEN-FX-4B-Preview是一个具有40亿参数的UI生成模型,专门针对前端开发进行优化,能够在22个框架中表现得像一名前端工程师。该模型专注于生成语义化的HTML代码,具有优秀的布局节奏、间距控制和组件组合能力,适合快速生成单文件网页。
enacimie
这是一个基于Tesslate/WEBGEN-4B-Preview转换的GGUF格式模型,专门用于网页生成和UI设计任务。模型采用Q4_K_M量化格式,在保持较好性能的同时减少了模型大小。
macpaw-research
这是基于Ultralytics/YOLO11微调的计算机视觉模型,专门用于检测macOS应用程序截图中的UI元素,是Screen2AX项目的一部分,致力于利用计算机视觉技术生成无障碍元数据。
UIGEN-X-8B的量化版本,致力于让知识为大众所用。该模型基于Tesslate/UIGEN-X-8B进行优化,提供更高效的推理性能。
electroglyph
这是一个基于ONNX的量化模型,是Qwen/Qwen3-Embedding-0.6B的uint8量化版本,在保持检索性能的同时减少了模型大小。
yujiepan
基于ByteDance-Seed/UI-TARS-1.5-7B模型的量化版本,采用GPTQ技术进行4位权重量化和16位激活量化,实现图像文本到文本的转换功能,具有高效的推理性能。
Mungert
UI-TARS-1.5-7B是基于先进技术的多模态模型,在图像文本转换等任务中表现出色,采用创新的量化方法,能在极低比特率下保持较高的准确性。
LZXzju
UI-R1-E-3B是基于Qwen2.5-VL-3B-Instruct微调的高效GUI定位模型,专注于视觉问答任务,特别擅长在用户界面截图中定位和识别操作元素。
Lucy-in-the-Sky
这是ByteDance-Seed/UI-TARS-1.5-7B模型的GGUF量化版本,专门针对GUI界面理解和多模态任务进行了优化。该模型采用4位量化技术,在保持性能的同时显著减少了模型大小和内存需求。
UIGEN-T2是基于Qwen2.5-Coder-7B-Instruct微调的UI生成模型,专注于生成HTML和Tailwind CSS代码
mlx-community
UI-TARS-1.5-7B-6bit 是一个基于 MLX 格式转换的视觉语言模型,支持图像理解和文本生成任务。
UI-TARS-1.5-7B-4bit是一个多模态模型,专注于图像文本到文本的转换任务,支持英文语言。
parasail-ai
UI-TARS是下一代原生GUI智能体模型,具备类人的感知、推理和行动能力,可与图形用户界面(GUI)实现无缝交互。
UI-TARS是下一代原生GUI代理模型,具备类人感知、推理和行动能力,可与图形用户界面(GUI)进行无缝交互。
prithivMLmods
Raptor-X5-UIGEN是基于Qwen 2.5 14B模态架构设计的大语言模型,专注于UI设计、极简编码和内容密集型开发,具有增强的推理能力和结构化响应生成。
UIGEN-T1.5是基于Qwen2.5-Coder-32B-Instruct微调的先进Transformer UI生成模型,专门用于生成现代且独特的前端用户界面。
Changesets是一个自动化工具,用于帮助管理多包或单包代码库的版本控制和发布流程。
一个为AI工作流提供shadcn/ui组件集成的MCP服务器,支持React、Svelte和Vue框架,包含组件源码、示例和元数据访问功能。
assistant-ui是一个开源TypeScript/React库,用于快速构建生产级AI聊天界面,提供可组合的UI组件、流式响应、无障碍访问等功能,支持多种AI后端和模型。
Magic Component Platform (MCP) 是一个AI驱动的UI组件生成工具,通过自然语言描述帮助开发者快速创建现代化UI组件,支持多种IDE集成。
iOS模拟器MCP服务器是一个通过Model Context Protocol(MCP)与iOS模拟器交互的工具,支持获取模拟器信息、控制UI交互和检查UI元素等功能。
AI开发助手MCP服务器是一个基于AI的代码开发工具包,提供代码架构生成、UI截图分析和代码审查等功能,专为Cursor设计。
napi 是一个由 NanoAPI 开发的工具,旨在自动分析软件架构复杂性,支持从代码库中提取功能模块,提供 CLI 和 UI 两种操作方式,并兼容主流 CI/CD 平台,帮助开发者优化架构设计。
一个基于ADB的Android设备控制服务器,通过MCP协议提供设备管理功能,支持ADB命令执行、屏幕截图、UI布局分析和应用包管理。
Magic UI的官方ModelContextProtocol (MCP)服务器,提供丰富的UI组件和效果实现细节,支持多种客户端集成。
Flux UI组件参考的MCP服务,提供组件文档和示例的查询功能
Claude Mobile是一个MCP服务器,支持通过自然语言控制Android、iOS、Desktop和Aurora OS设备,提供统一的自动化操作、智能截图、权限管理和UI交互功能。
Go进程检查工具,提供goroutine状态、内存统计和二进制信息分析,支持终端UI和HTTP API
MCP Magic UI是一个基于Model Context Protocol的服务器,用于访问和探索Magic UI组件库。
pickapicon-mcp是一个为前端/UI/设计师提供的工具,通过Iconify API快速获取SVG图标,简化工作流程,与LLMs结合使用更高效。
一个通过自然语言命令控制iOS模拟器的MCP服务器,提供全面的模拟器操作、应用管理、UI交互和调试功能。
Android-MCP是一个轻量级开源项目,作为AI代理与Android设备之间的桥梁,通过MCP服务器实现真实任务操作如应用导航、UI交互和自动化测试,无需依赖传统计算机视觉或预设脚本。
Data Agents是一个基于GenAI的数据工程代理平台,通过多智能体协作自动化数据工作流程,支持多种AI后端和n8n集成,提供现代化UI界面和Docker部署方案。
这是一个基于CLIP的时尚推荐系统,通过YOLO检测用户上传的服装图片,利用CLIP编码后推荐相似商品。项目已完成FastAPI服务器搭建、数据库连接和基础前端UI,下一步将优化CLIP的标签准确性和系统集成。
Gemini UI设计服务器是一个基于MCP协议的企业级UI/UX设计和前端实现专家系统,通过集成Google Gemini 2.5 PRO提供专业的UI组件设计、代码审查、前端代码生成和架构咨询服务
Taroify MCP 是一个将 Taro React UI 组件库与大模型连接的服务,支持从小程序文档中检索组件和API数据,无需额外依赖。