汉堡大学与莱布尼茨媒体研究所研究发现,ChatGPT的新闻推荐因接口不同差异显著。五周内分析2.4万条新闻问题发现,API接口多引用维基百科等非新闻来源,而网页界面更倾向新闻媒体。研究聚焦德国用户体验,揭示AI回答来源偏好。
一项针对德语区2.4万条新闻AI回答的研究发现,用户访问ChatGPT的方式会显著影响其新闻源推荐。网页界面倾向推荐主流媒体及合作方,而API接口则呈现更多元化选择。两者在新闻源多样性、集中度和政治倾向方面均存在统计学显著差异。
xAI即将为iOS版Grok Imagine工具推出视频生成功能,用户可通过文本或图像提示创建高清动态视频,并支持从内容提要中直接重混提示以快速迭代创作。界面轻度优化提升操作流畅性,基于Aurora/Grok核心模型,支持一键高清升级,生成数秒短片,适用于广告和创意内容。重混机制降低输入门槛,简化创作流程。
OpenAI与PayPal合作,将支付功能集成到ChatGPT界面,基于Google的ACP协议。用户可直接通过PayPal账户在对话中完成支付,这是OpenAI进军电商的新举措。从2026年起,ChatGPT将支持搜索并购买数千万商家的商品,PayPal已支持ACP协议实现此功能。
为iPhone和iPad创建独特的视觉效果。
利用 AI 将您的创意变为现实,生成美观的应用程序。
下一代原生GUI代理模型,能够无缝与图形用户界面交互。
UI-TARS 是一个用于自动化图形用户界面交互的下一代原生 GUI 代理模型。
noctrex
Gelato-30B-A3B是针对GUI计算机使用任务进行微调的最先进(SOTA)模型,提供了量化版本以优化部署效率。该模型专门设计用于理解和处理图形用户界面相关的任务。
Salesforce
GTA1是基于GRPO强化学习训练的GUI接地模型,专门用于图形用户界面自动化操作。相较于依赖冗长思维链推理的方法,GRPO直接激励可操作和有根据的响应,在多个基准测试中表现出卓越的接地性能。
GTA1是基于强化学习(GRPO)训练的最先进GUI接地模型,专门用于图形用户界面自动化任务。与依赖冗长思维链推理的方法不同,GRPO直接激励可操作和有根据的响应,在多个挑战性数据集上展示了卓越的接地性能和代理性能。
microsoft
GUI-Actor-2B是基于Qwen2-VL-2B的视觉语言模型,专为图形用户界面(GUI)定位任务设计,通过增加基于注意力的动作头并进行微调,在多个GUI定位基准测试中表现良好。
GUI-Actor-7B是基于Qwen2-VL-7B-Instruct开发的视觉语言模型,专注于图形用户界面(GUI)代理任务,提供无坐标的视觉接地解决方案。
Hcompany
Holo1-3B是由HCompany开发的动作视觉语言模型(VLM),专为Surfer-H网络代理系统设计,能够像人类用户一样与网页界面进行交互。
LZXzju
UI-R1-E-3B是基于Qwen2.5-VL-3B-Instruct微调的高效GUI定位模型,专注于视觉问答任务,特别擅长在用户界面截图中定位和识别操作元素。
HelloKKMe
GTA1是一个基于强化学习(GRPO)的GUI元素定位模型,能够精准定位图形用户界面中的元素。
parasail-ai
UI-TARS是下一代原生GUI智能体模型,具备类人的感知、推理和行动能力,可与图形用户界面(GUI)实现无缝交互。
UI-TARS是下一代原生GUI代理模型,具备类人感知、推理和行动能力,可与图形用户界面(GUI)进行无缝交互。
Tesslate
UIGEN-T1.5是基于Qwen2.5-Coder-32B-Instruct微调的先进Transformer UI生成模型,专门用于生成现代且独特的前端用户界面。
基于Qwen2.5-Coder-14B-Instruct微调的高级Transformer界面生成模型,擅长生成现代且独特的前端用户界面
Fintor
Fintor-GUI-S2 是一个基于 UI-TARS-7B-DPO 微调的 GUI 基础模型,专注于图形用户界面(GUI)的多模态任务。
ByteDance-Seed
UI-TARS 是新一代原生图形用户界面(GUI)智能体模型,旨在通过类人的感知、推理和行动能力与图形用户界面无缝交互。
UI-TARS 是新一代原生图形用户界面(GUI)代理模型,旨在通过类人的感知、推理和行动能力,无缝地与图形用户界面交互。
bytedance-research
UI-TARS是新一代原生图形用户界面(GUI)代理模型,旨在通过类人的感知、推理和行动能力与图形用户界面无缝交互。
OmniParser是一款通用屏幕解析工具,能够将用户界面截图解释/转换为结构化格式,以改进现有基于大语言模型(LLM)的UI代理。
Jl-wei
GUIClip是一个专注于图形用户界面(GUI)领域的视觉语言模型,适用于GUI相关任务。
biglab
UIClip 是一个用于量化用户界面(UI)截图在给定文本描述下的设计质量和相关性的模型。
UIClip 是一个通过文本描述量化用户界面(UI)截图设计质量与相关性的多模态模型。
该项目通过Model Context Protocol (MCP)为MLflow提供自然语言交互界面,使用户能用英语查询和管理机器学习实验与模型,包含服务端和客户端组件。
Pocket MCP Manager是一个灵活的MCP服务器管理系统,采用客户端-服务器架构,通过中央界面简化多MCP服务器的管理。它允许用户集中添加服务器、选择性启动、生成API密钥并通过单一代理连接,适用于Claude、Cursor等客户端。
UIFlowchartCreator是一个用于创建UI流程图的MCP服务器工具,帮助开发者和设计师可视化用户界面及其交互。
一个基于Python的交易助手,通过Zerodha MCP服务器连接,帮助用户管理交易账户,提供自然语言交互界面和多种交易功能。
一个基于React的现代浏览器应用,提供用户友好的界面,通过服务器发送事件(SSE)与模型上下文协议(MCP)服务器进行实时交互,支持主题切换、截图预览和消息历史等功能。
Glutamate MCP Servers是一个包含多种MCP服务器的项目,支持通过Glutamate平台轻松部署和管理。项目提供自定义服务器如UI Assist,并支持所有基于Node的stdio和sse协议服务器。
NiFi MCP项目提供了一个基于自然语言交互的聊天界面,允许用户通过LLM模型与Apache NiFi实例进行交互,支持查询、文档化和操作NiFi组件。
AutoGPT是一个开源AI代理框架,旨在让每个人都能轻松构建和使用AI代理。项目提供Forge工具链简化开发流程,包含基准测试、用户界面和CLI工具,支持通过Agent Protocol标准实现兼容性,并设有竞技场排行榜激励开发者优化代理性能。
这是一个现代化、响应式的登录页面实现,具有直观的用户界面和丰富的交互功能,包括表单验证、密码强度检查等安全特性,使用纯前端技术实现。
一个基于Streamlit的MCPAgent交互应用,具备对话记忆、网络搜索和模型选择功能,提供现代响应式用户界面。
MCP服务器用于构建用户界面
JLCPCB Parts MCP Server是一个帮助用户查找JLCPCB PCBA服务兼容组件的服务器项目,提供快速搜索、用户友好界面和最新组件数据。
该项目通过搭建多个MCP服务端(数学计算、天气查询、LLM选择)和客户端,实现了一个基于Langchain的聊天机器人系统。用户可通过Streamlit界面与机器人交互。
MCP Yahoo Finance Server 是一个基于 Yahoo Finance API 的工具,用于获取实时股票数据、公司信息和历史价格数据。它集成了多客户端协议(MCP)框架,提供客户端与服务器之间的无缝通信,并包含一个基于 FastAPI 和 DaisyUI 的 Web UI,支持用户通过直观界面交互。项目还整合了 Azure OpenAI 用于自然语言查询处理。
AutoGPT是一个开源的AI代理工具包,提供模块化和可扩展的框架,支持用户构建、测试和监控AI代理。项目包含Forge创新实验室、Benchmark测试环境和用户友好的前端界面,采用Agent Protocol标准化通信。社区活跃,定期举办黑客马拉松等活动推动创新。
Python MCP Server是一个基于Flask的后端服务器,用于与Minecraft交互,提供用户认证、数据库集成、Web界面和API端点等功能,支持Minecraft服务器管理和插件集成。
Figma用户界面设计项目
MCP Manager GUI是一个简化MCP服务器管理的工具,提供用户友好的界面、跨平台支持、实时监控和AI集成功能。
PyMCPAutoGUI是一个通过MCP协议为AI代理提供图形用户界面(GUI)自动化能力的工具,支持鼠标键盘控制、屏幕截图、窗口管理等操作,可无缝集成Cursor编辑器等MCP兼容环境。
该项目展示了如何将本地Ollama模型与Pydantic代理框架结合,创建智能代理并通过MCP服务器使用工具,同时提供Streamlit用户界面。