英伟达发布PersonaPlex-7B-v1语音对话模型,突破传统AI语音助手“一问一答”模式,实现更自然的真人对话体验。该模型采用单一Transformer架构,直接完成语音理解与生成,无需传统ASR、LLM、TTS串联处理。
阿里巴巴开源Fun-Audio-Chat-8B语音大模型,主打超低延迟与自然交互,性能媲美GPT-4o Audio等闭源模型。它具备实时理解和情感感知能力,旨在成为真正的AI语音伙伴。
ElevenLabs的AI语音智能体深度集成WhatsApp,支持文字与语音双模交互。用户可通过文字聊天或直接拨打WhatsApp语音电话,与拥有逼真人声的AI助理实时对话。企业可便捷部署具备多语言、情感识别、实时翻译等能力的AI语音助手,重构客服体验。
xAI推出Grok Voice Agent API,向全球开发者开放实时语音交互能力。该API基于成熟的语音技术栈,已在特斯拉车辆和移动应用中广泛应用。其最大亮点是极致性价比,每分钟连接费用仅0.05美元,显著低于市场主流竞品,助力开发者低成本构建高性能语音应用。
提供语音、视频和聊天API,用于实时交互,加速应用增长。
首个面向语境智能的人类级实时交互系统,支持多情感、多风格语音交互。
VITA-1.5: 实时视觉和语音交互的GPT-4o级多模态大语言模型
实时语音交互数字人,支持端到端语音方案
Anthropic
$7
Input tokens/M
$35
Output tokens/M
200
Context Length
Google
$2.1
$17.5
1k
$0.7
$2.8
Alibaba
$8
$240
52
$3.9
$15.2
64
$15.8
$12.7
-
Bytedance
$0.8
$2
128
$0.15
$1.5
256
Baidu
Openai
$0.35
400
$2.4
$12
8
Tencent
32
$3
$9
$1.6
$10
$6
$6.4
maitrix-org
Voila是一个大型语音-语言基础模型家族,旨在提升人机交互体验,支持实时、低延迟的语音交互和多语言处理。
VITA-MLLM
VITA-1.5是一个多模态交互模型,旨在实现GPT-4o级别的实时视觉与语音交互能力。
Speech MCP是为Goose设计的语音交互扩展,提供实时语音识别、高质量文本转语音、多语言支持和现代化音频可视化界面,支持多角色对话生成和音频转录功能。
一个支持与Claude等LLM进行语音交互的MCP服务器,只需OpenAI API密钥和麦克风/扬声器即可实现实时语音对话。
Speech MCP 是一个为Goose设计的语音交互扩展,提供实时语音识别、文本转语音和音频可视化功能。