Perplexity公司推出Android版AI浏览器Comet,延续桌面版核心功能:支持设为默认搜索引擎,通过标签提及功能向AI助手提问,新增语音模式可对已打开页面进行交互查询。
沙特AI初创公司Humain在利雅得未来投资倡议会议上发布"Humain One"操作系统。该系统旨在取代Windows等传统系统,支持自然语言交互,用户可通过语音命令完成计算任务。CEO表示将重新定义企业计算方式,打造能理解人类意图的智能系统。
StepFun AI发布开源项目Step-Audio-EditX,基于30亿参数音频语言模型,将语音编辑转化为类似文本标记的可控操作,突破传统波形处理模式。该技术有望实现"像编辑文本一样编辑语音"的直观交互,相关论文已发布于arXiv平台(编号2511.03601)。
前Meta员工创立的Sandbar公司推出Stream智能戒指,定位“语音鼠标”,支持语音记录想法、控制音乐及AI交互,旨在便捷管理日常任务。创始人包括CEO米娜・法赫米和CTO基拉克・洪。
Roark是一个声音AI的QA可观察性层,监控语音交互并进行测试和评估。
AI助手,通过语音和动画指导用户,提升网站交互体验。
构建高级语音AI,由LLM提供支持,实现人类般的交互体验。
Play.ai 是一个基于人工智能的语音交互平台,提供个性化的对话体验。
AquaLabs
EchoLLaMA是一个多模态AI系统,能够将3D视觉数据转化为自然语音描述,同时支持通过语音输入进行交互对话。
Voice Mode是一个为AI助手提供自然语音对话功能的工具,支持与Claude、ChatGPT等LLM通过MCP协议进行人机语音交互。
Chatty MCP是一款为编辑器设计的语音交互插件,能在完成AI请求后通过语音总结操作内容,提升多任务处理效率,支持自定义语音引擎。
一个基于Model Context Protocol (MCP)的Gmail邮件管理服务器,支持通过AI代理搜索、阅读、删除和发送邮件,需配合语音交互客户端使用。
一个专为AI模拟面试场景设计的MCP服务器,提供交互式语音面试练习功能
Voicevox MCP Server是一个VOICEVOX兼容的语音合成服务器,通过MCP协议实现与AivisSpeech/VOICEVOX/COEIROINK的交互,支持Cursor等编辑器中的Claude 3.7代理模式语音合成。
Hume MCP服务器是一个AI协作工具,允许用户通过MCP客户端应用(如Claude Desktop、Cursor等)使用Octave文本转语音技术,实现智能语音合成与交互。
IntelliGlow是一个基于MCP协议的智能照明系统,通过AI助手控制真实智能灯泡,支持语音命令、AI推理和直接硬件控制,实现自然语言交互和智能灯光管理。
MCP Server Whisper是一个基于OpenAI Whisper和GPT-4o模型的音频处理服务器,提供高级音频转录、格式转换、批量处理和文本转语音等功能,通过Model Context Protocol标准实现与AI助手的无缝交互。
这是一个MCP服务器项目,提供通过WhatsApp发送接收语音消息并与AI客户端Claude Desktop交互的功能。
Vavicky MCP服务器是一个完整的语音AI代理平台实现,提供用户管理、API密钥配置、助手管理、Twilio集成和通信功能,支持通过Claude桌面客户端进行交互。