苹果收购以色列AI音频公司Q.ai,旨在提升iPhone等设备语音助手在复杂环境下的识别能力。Q.ai团队整体并入苹果,其CEO Aviad Maizels已是第二次将公司出售给苹果,此前PrimeSense于2013年被收购。此举强化了苹果在AI语音交互领域的技术布局。
2026年1月30日,Google地图上线基于Gemini助手的步行与骑行导航功能,将AI语音交互从驾车场景扩展至非机动出行。该功能旨在提供全程免操作的“副驾驶”式即时语音协助,用户可通过语音实时查询位置、路况等信息,解决步行骑行时不便查看手机的问题。
三星确认其下一代AR眼镜将于2026年面世,定位为“多模态AI载体”。核心卖点在于深度沉浸的多模态AI体验,通过结合语音、视觉等多种交互方式,提供智能辅助功能。
小米与蚂蚁集团合作,基于GPASS技术,在小米智能眼镜上推出停车缴费和AI健康管理两项服务。用户通过语音或视觉交互即可完成停车缴费,实现“服务随行”的智能体验。
Roark是一个声音AI的QA可观察性层,监控语音交互并进行测试和评估。
AI助手,通过语音和动画指导用户,提升网站交互体验。
构建高级语音AI,由LLM提供支持,实现人类般的交互体验。
Play.ai 是一个基于人工智能的语音交互平台,提供个性化的对话体验。
Anthropic
$105
Input tokens/M
$525
Output tokens/M
200
Context Length
Google
$2.1
$17.5
1k
$0.7
$2.8
Alibaba
-
$8
$240
52
$3.9
$15.2
64
$15.8
$12.7
Bytedance
$0.8
$2
128
$0.15
$1.5
256
AquaLabs
EchoLLaMA是一个多模态AI系统,能够将3D视觉数据转化为自然语音描述,同时支持通过语音输入进行交互对话。
Voice Mode是一个为AI助手提供自然语音对话功能的工具,支持与Claude、ChatGPT等LLM通过MCP协议进行人机语音交互。
Chatty MCP是一款为编辑器设计的语音交互插件,能在完成AI请求后通过语音总结操作内容,提升多任务处理效率,支持自定义语音引擎。
一个基于Model Context Protocol (MCP)的Gmail邮件管理服务器,支持通过AI代理搜索、阅读、删除和发送邮件,需配合语音交互客户端使用。
一个专为AI模拟面试场景设计的MCP服务器,提供交互式语音面试练习功能
Voicevox MCP Server是一个VOICEVOX兼容的语音合成服务器,通过MCP协议实现与AivisSpeech/VOICEVOX/COEIROINK的交互,支持Cursor等编辑器中的Claude 3.7代理模式语音合成。
Hume MCP服务器是一个AI协作工具,允许用户通过MCP客户端应用(如Claude Desktop、Cursor等)使用Octave文本转语音技术,实现智能语音合成与交互。
IntelliGlow是一个基于MCP协议的智能照明系统,通过AI助手控制真实智能灯泡,支持语音命令、AI推理和直接硬件控制,实现自然语言交互和智能灯光管理。
MCP Server Whisper是一个基于OpenAI Whisper和GPT-4o模型的音频处理服务器,提供高级音频转录、格式转换、批量处理和文本转语音等功能,通过Model Context Protocol标准实现与AI助手的无缝交互。
这是一个MCP服务器项目,提供通过WhatsApp发送接收语音消息并与AI客户端Claude Desktop交互的功能。
Vavicky MCP服务器是一个完整的语音AI代理平台实现,提供用户管理、API密钥配置、助手管理、Twilio集成和通信功能,支持通过Claude桌面客户端进行交互。