阿里巴巴通义实验室发布MAI-UI多模态GUI智能代理家族,整合人机交互、工具使用与云端协作,在通用及移动GUI导航方面表现领先,超越多个同行模型。该系统基于Qwen3VL构建,提供多种规模模型,支持自然语言指令处理。
瑞典初创公司Lovable在成立仅五个月内估值飙升至66亿美元,完成3.3亿美元B轮融资,由CapitalG和Menlo Ventures领投。该公司专注于“情感编程”技术,旨在通过AI提升人机交互体验。
OpenAI CEO山姆·奥特曼与苹果前设计师乔纳森·艾维正合作开发无屏幕口袋AI设备,旨在终结数字喧嚣。奥特曼在旧金山活动上透露,这款产品将颠覆现代科技带来的干扰,重塑人机交互方式。
小米发布智能家居方案Xiaomi Miloco,将大模型技术融入全屋智能,突破传统预设规则局限。它通过自然语言和场景理解,支持用户用口语表达复杂需求,如“读书时开台灯和音乐”,系统自动调整设备状态,提升人机交互体验。
一个人性化的多代理系统,自动化网络任务。
Vy是未来计算机界面的代表,利用先进的人工智能技术改变人机交互方式。
OmniTalker 是一个实时文本驱动的生成谈话头框架。
下一代情感智能的对话视频界面,让AI交互更自然、更人性。
maitrix-org
Voila是一个大型语音-语言基础模型家族,旨在提升人机交互体验,支持实时、低延迟的语音交互和多语言处理。
Voila是一个全新的大型语音-语言基础模型系列,旨在将人机交互体验提升至全新水平。
Voila是一个全新的大型语音-语言基础模型家族,旨在将人机交互体验提升至新高度。
Voila是一个大型语音-语言基础模型系列,旨在提升人机交互体验,支持多种音频任务和语言。
yueliu1999
基于Llama-3.2-3B通过R-SFT和HS-DPO方法微调的安全防护模型,用于分析人机交互中的有害内容
ACIDE
专为社交人机交互设计的个性化视觉语言模型,通过用户感知调优机制解决语义鸿沟问题
OpenGVLab
InternVideo2-Chat-8B-InternLM2.5是一个视频-文本多模态模型,通过整合InternVideo2视频编码器与大型语言模型(LLM)来增强视频理解和人机交互能力。
InternVideo2-Chat-8B是一个结合大型语言模型(LLM)和视频BLIP的视频理解模型,通过渐进式学习方案构建,能够进行视频语义理解和人机交互。
lamm-mit
Cephalo是一系列专注于多模态材料科学的视觉大语言模型(V-LLMs),旨在整合视觉和语言数据,以促进人机交互或多智能体AI框架中的高级理解和交互。
Cephalo是一系列专注于多模态材料科学的视觉大语言模型(V-LLMs),旨在整合视觉和语言数据,以促进人机交互或多智能体AI框架中的高级理解和互动。
benjaminbeilharz
共情对话模型是一种能够理解和生成具有共情能力的对话的AI模型,旨在提升人机交互的情感体验。
一个通过Discord实现人机交互的MCP服务器,允许AI助手在需要时向人类提问获取输入或判断。
MCP Connect 4是一个通过MCP技术实现人机交互的井字棋游戏项目,允许用户与AI助手对弈,并自动记录游戏状态。
一个基于Puppeteer的MCP服务器,为AI助手提供防检测的浏览器自动化能力,支持真实点击、人机交互等功能。
一个用于实现人机交互工作流程的MCP服务器,适用于Cline和Cursor等工具。
mcp-agent是一个基于Model Context Protocol(MCP)的轻量级AI代理框架,支持通过简单可组合的模式构建高效代理应用。它集成了MCP服务器的生命周期管理,并实现了多种工作流模式,如并行处理、路由、评估优化等,适用于多代理协作、人机交互等多种AI应用场景。