东软集团与Cerence AI达成战略合作,共同开发新一代智能座舱平台,聚焦智能语音与大语言模型技术,为全球车企提供高效、预集成的智能交互解决方案。东软将依托其NAGIC智能座舱平台,结合Cerence AI的前沿技术,满足市场对智能座舱日益增长的需求。
英伟达发布PersonaPlex-7B-v1语音对话模型,突破传统AI语音助手“一问一答”模式,实现更自然的真人对话体验。该模型采用单一Transformer架构,直接完成语音理解与生成,无需传统ASR、LLM、TTS串联处理。
OpenAI推出免费网页版ChatGPT Translate,对标谷歌翻译。支持文本、语音、文件多模态输入,交互性更强,无需付费即可使用。
亚马逊推出AI可穿戴设备Bee,操作简便,一键录音。用户可通过应用自定义按钮功能,如双击标记对话片段、处理对话或同时操作,长按可留语音备忘录或与AI助手对话。Bee具备监听、录音和转写功能,独特之处在于其便捷的交互设计。
提供语音、视频和聊天API,用于实时交互,加速应用增长。
Roark是一个声音AI的QA可观察性层,监控语音交互并进行测试和评估。
使用语音交互将想法转化为生产就绪的应用程序。
提高产品采纳率,部署我们的AI语音代理,作为专业的采纳专家,引领用户从入门到领悟。
Anthropic
$105
Input tokens/M
$525
Output tokens/M
200
Context Length
Google
$2.1
$17.5
1k
$0.7
$2.8
Alibaba
$2
$20
-
$8
$240
52
$3.9
$15.2
64
$15.8
$12.7
Bytedance
$0.8
128
$0.15
$1.5
256
Baidu
$1.6
$4
$0.75
Openai
$0.35
400
Tencent
24
$16
$3.5
$12
$2.4
8
nvidia
OmniVinci是NVIDIA开发的全模态理解大语言模型,具备视觉、文本、音频处理和语音交互能力,支持多模态推理和理解。
fixie-ai
Ultravox是一个多模态语音大语言模型,能够同时处理语音和文本输入,为语音交互场景提供强大支持。
AquaLabs
EchoLLaMA是一个多模态AI系统,能够将3D视觉数据转化为自然语音描述,同时支持通过语音输入进行交互对话。
maitrix-org
Voila是一个大型语音-语言基础模型家族,旨在提升人机交互体验,支持实时、低延迟的语音交互和多语言处理。
SeaLLMs
SeaLLMs-Audio是面向东南亚的大规模音频语言模型,支持印尼语、泰语、越南语、英语和中文五大语种,具备音频分析、语音交互等能力。
VITA-MLLM
VITA-1.5是一个多模态交互模型,旨在实现GPT-4o级别的实时视觉与语音交互能力。
NexaAIDev
Qwen2-Audio是先进的小规模多模态模型,支持音频与文本输入,无需依赖语音识别模块即可实现语音交互。
NexaAI
Qwen2-Audio 是一款先进的小规模多模态模型,支持音频和文本输入,无需ASR模块即可进行语音交互。
gpt-omni
Mini-Omni2是一款全交互式多模态模型,能理解图像、音频和文本输入,并与用户进行端到端的语音对话。
Qwen
Qwen2-Audio是通义千问大音频语言模型系列,支持语音聊天和音频分析两种交互模式。
somosnlp
支持西班牙语的多模态数据库交互工具,通过语音/文本指令生成SQL查询,并以最适合的模态(语音/文本/图像)返回结果
fnlp
SpeechGPT是一个具备内在跨模态对话能力的大型语言模型,能够感知和生成多模态内容,支持语音与文本的交互。
ElevenLabs官方MCP服务器,提供文本转语音和音频处理API交互能力
MiniMax Model Context Protocol (MCP) 是一个官方服务器,支持与强大的文本转语音、视频/图像生成API交互,适用于多种客户端工具如Claude Desktop、Cursor等。
MiniMax官方模型上下文协议(MCP)服务器,支持文本转语音、视频/图像生成等API交互。
一个支持与Claude等LLM进行语音交互的MCP服务器,只需OpenAI API密钥和麦克风/扬声器即可实现实时语音对话。
该项目实现了Typecast API的MCP服务器,为MCP客户端提供标准化的语音合成服务交互方式。
Speech MCP是为Goose设计的语音交互扩展,提供实时语音识别、高质量文本转语音、多语言支持和现代化音频可视化界面,支持多角色对话生成和音频转录功能。
Voice Mode是一个为AI助手提供自然语音对话功能的工具,支持与Claude、ChatGPT等LLM通过MCP协议进行人机语音交互。
MiniMax MCP JS是一个基于JavaScript/TypeScript实现的MiniMax MCP协议工具集,提供图像生成、视频生成、文本转语音等功能,支持与MCP兼容客户端交互。
Chatty MCP是一款为编辑器设计的语音交互插件,能在完成AI请求后通过语音总结操作内容,提升多任务处理效率,支持自定义语音引擎。
Speech MCP 是一个为Goose设计的语音交互扩展,提供实时语音识别、文本转语音和音频可视化功能。
一个基于Model Context Protocol的AI代理服务器,提供系统提示和工具管理功能
一个基于Model Context Protocol (MCP)的Gmail邮件管理服务器,支持通过AI代理搜索、阅读、删除和发送邮件,需配合语音交互客户端使用。
一个Node.js客户端,用于集成远程MCP服务器,为Voiceflow代理提供工具支持,支持多种工具发现和Claude AI集成。
AllVoiceLab官方MCP服务器,支持文本转语音、视频翻译等强大API交互,为多款客户端提供语音生成、视频翻译及智能变声服务。
基于MCP协议的智能宠物伴侣应用,通过语音识别和自然语言处理实现与虚拟宠物的互动,支持多平台运行。
一个基于AI的面试角色扮演MCP服务器
一个专为AI模拟面试场景设计的MCP服务器,提供交互式语音面试练习功能
Voicevox MCP Server是一个VOICEVOX兼容的语音合成服务器,通过MCP协议实现与AivisSpeech/VOICEVOX/COEIROINK的交互,支持Cursor等编辑器中的Claude 3.7代理模式语音合成。
为Claude Code提供语音交互模式的MCP服务,支持通过浏览器进行免提的连续双向语音对话,包含语音识别和文本转语音功能。
基于Google Gemini多模态API的增强版网页控制台,新增工具调用功能