亚马逊新版AI助手Alexa+在美国全面开放,标志着其生成式AI商业化的重要进展。该服务旨在提供比传统语音助手更深入的交互体验,现已纳入Amazon Prime会员权益;非会员需按月付费使用全功能。
蚂蚁阿福App升级推出“长辈模式”,界面字体图标更大,默认语音交互,支持直接电话咨询健康问题。同时保留多方言提问功能,并新增三种数字人形象自定义选项,未来将提供更多选择。
Rokid正与顶尖大模型公司合作开发新一代AI智能眼镜,以生成式AI和AI智能体为核心,打造革命性操作系统和界面。该眼镜采用端侧多模态模型,支持语音、视觉和触控等多种交互方式,旨在提供全新用户体验。
苹果收购以色列AI音频公司Q.ai,旨在提升iPhone等设备语音助手在复杂环境下的识别能力。Q.ai团队整体并入苹果,其CEO Aviad Maizels已是第二次将公司出售给苹果,此前PrimeSense于2013年被收购。此举强化了苹果在AI语音交互领域的技术布局。
提供语音、视频和聊天API,用于实时交互,加速应用增长。
Roark是一个声音AI的QA可观察性层,监控语音交互并进行测试和评估。
使用语音交互将想法转化为生产就绪的应用程序。
提高产品采纳率,部署我们的AI语音代理,作为专业的采纳专家,引领用户从入门到领悟。
Anthropic
$105
Input tokens/M
$525
Output tokens/M
200
Context Length
Google
$2.1
$17.5
1k
$0.7
$2.8
Alibaba
$2
$20
-
$8
$240
52
$3.9
$15.2
64
$15.8
$12.7
Bytedance
$0.8
128
$0.15
$1.5
256
Baidu
$1.6
$4
$0.75
Openai
$0.35
400
Tencent
24
$16
$3.5
$12
32
nvidia
OmniVinci是NVIDIA开发的全模态理解大语言模型,具备视觉、文本、音频处理和语音交互能力,支持多模态推理和理解。
fixie-ai
Ultravox是一个多模态语音大语言模型,能够同时处理语音和文本输入,为语音交互场景提供强大支持。
AquaLabs
EchoLLaMA是一个多模态AI系统,能够将3D视觉数据转化为自然语音描述,同时支持通过语音输入进行交互对话。
maitrix-org
Voila是一个大型语音-语言基础模型家族,旨在提升人机交互体验,支持实时、低延迟的语音交互和多语言处理。
SeaLLMs
SeaLLMs-Audio是面向东南亚的大规模音频语言模型,支持印尼语、泰语、越南语、英语和中文五大语种,具备音频分析、语音交互等能力。
VITA-MLLM
VITA-1.5是一个多模态交互模型,旨在实现GPT-4o级别的实时视觉与语音交互能力。
NexaAIDev
Qwen2-Audio是先进的小规模多模态模型,支持音频与文本输入,无需依赖语音识别模块即可实现语音交互。
NexaAI
Qwen2-Audio 是一款先进的小规模多模态模型,支持音频和文本输入,无需ASR模块即可进行语音交互。
gpt-omni
Mini-Omni2是一款全交互式多模态模型,能理解图像、音频和文本输入,并与用户进行端到端的语音对话。
Qwen
Qwen2-Audio是通义千问大音频语言模型系列,支持语音聊天和音频分析两种交互模式。
somosnlp
支持西班牙语的多模态数据库交互工具,通过语音/文本指令生成SQL查询,并以最适合的模态(语音/文本/图像)返回结果
fnlp
SpeechGPT是一个具备内在跨模态对话能力的大型语言模型,能够感知和生成多模态内容,支持语音与文本的交互。
ElevenLabs官方MCP服务器,提供文本转语音和音频处理API交互能力
MiniMax Model Context Protocol (MCP) 是一个官方服务器,支持与强大的文本转语音、视频/图像生成API交互,适用于多种客户端工具如Claude Desktop、Cursor等。
MiniMax官方模型上下文协议(MCP)服务器,支持文本转语音、视频/图像生成等API交互。
一个支持与Claude等LLM进行语音交互的MCP服务器,只需OpenAI API密钥和麦克风/扬声器即可实现实时语音对话。
Speech MCP是为Goose设计的语音交互扩展,提供实时语音识别、高质量文本转语音、多语言支持和现代化音频可视化界面,支持多角色对话生成和音频转录功能。
该项目实现了Typecast API的MCP服务器,为MCP客户端提供标准化的语音合成服务交互方式。
Voice Mode是一个为AI助手提供自然语音对话功能的工具,支持与Claude、ChatGPT等LLM通过MCP协议进行人机语音交互。
MiniMax MCP JS是一个基于JavaScript/TypeScript实现的MiniMax MCP协议工具集,提供图像生成、视频生成、文本转语音等功能,支持与MCP兼容客户端交互。
Chatty MCP是一款为编辑器设计的语音交互插件,能在完成AI请求后通过语音总结操作内容,提升多任务处理效率,支持自定义语音引擎。
Speech MCP 是一个为Goose设计的语音交互扩展,提供实时语音识别、文本转语音和音频可视化功能。
一个基于Model Context Protocol的AI代理服务器,提供系统提示和工具管理功能
一个基于Model Context Protocol (MCP)的Gmail邮件管理服务器,支持通过AI代理搜索、阅读、删除和发送邮件,需配合语音交互客户端使用。
一个Node.js客户端,用于集成远程MCP服务器,为Voiceflow代理提供工具支持,支持多种工具发现和Claude AI集成。
AllVoiceLab官方MCP服务器,支持文本转语音、视频翻译等强大API交互,为多款客户端提供语音生成、视频翻译及智能变声服务。
基于MCP协议的智能宠物伴侣应用,通过语音识别和自然语言处理实现与虚拟宠物的互动,支持多平台运行。
一个基于AI的面试角色扮演MCP服务器
一个专为AI模拟面试场景设计的MCP服务器,提供交互式语音面试练习功能
为Claude Code提供语音交互模式的MCP服务,支持通过浏览器进行免提的连续双向语音对话,包含语音识别和文本转语音功能。
Voicevox MCP Server是一个VOICEVOX兼容的语音合成服务器,通过MCP协议实现与AivisSpeech/VOICEVOX/COEIROINK的交互,支持Cursor等编辑器中的Claude 3.7代理模式语音合成。
IntelliGlow是一个基于MCP协议的智能照明系统,通过AI助手控制真实智能灯泡,支持语音命令、AI推理和直接硬件控制,实现自然语言交互和智能灯光管理。