ElevenLabs的AI语音智能体深度集成WhatsApp,支持文字与语音双模交互。用户可通过文字聊天或直接拨打WhatsApp语音电话,与拥有逼真人声的AI助理实时对话。企业可便捷部署具备多语言、情感识别、实时翻译等能力的AI语音助手,重构客服体验。
智谱AI推出GLM-ASR系列开源语音识别模型,并发布桌面端“智谱AI输入法”,提升PC语音输入体验。其中GLM-ASR-2512云端模型支持实时转写,在复杂环境中表现优异,字符错误率(CER)极低。
Meta收购AI可穿戴设备公司Limitless,其智能吊坠支持语音交互、实时录音转录和语音搜索,旨在提升用户专注力和记忆力。Limitless团队将加入Meta开发下一代AI硬件,此前Meta已进行战略调整。
理想汽车发布AI眼镜Livis,搭载自研AI助手“理想同学”,支持语音交互、实时翻译等功能,售价1999元起。
提供语音AI的ASR、TTS和LLM模型,可测试部署用于实时应用。
Questie AI是带实时语音聊天的终极AI游戏伴侣,提供多样娱乐体验。
AI语音助手,提供网站上的实时对话支持和线索转化。
体验与AI虚拟女友或男友的实时语音聊天,在Idyll上选择头像、国籍,并探索角色扮演、幻想和深厚的纽带。10分钟免费聊天-立即开始!
Xai
$1.4
Input tokens/M
$3.5
Output tokens/M
2k
Context Length
Anthropic
$7
$35
200
Google
$2.1
$17.5
1k
$0.7
$2.8
Alibaba
-
$8
$240
52
$3.9
$15.2
64
$15.8
$12.7
Bytedance
$0.8
$2
128
$0.15
$1.5
256
pnnbao-ump
VieNeu-TTS是首个可在个人设备上运行的越南语文本转语音模型,具备即时语音克隆能力。基于NeuTTS Air微调,能够生成自然逼真的越南语语音,在CPU上具备实时性能。
TheStageAI
TheWhisper-Large-V3-Turbo 是 OpenAI Whisper Large V3 模型的高性能微调版本,由 TheStage AI 针对多平台实时、低延迟和低功耗语音转文本推理进行优化。支持流式转录、单词时间戳和可扩展性能,适用于实时字幕、会议和设备端语音界面等场景。
TheWhisper-Large-V3是OpenAI Whisper Large V3模型的高性能微调版本,由TheStage AI针对多平台(NVIDIA GPU和Apple Silicon)的实时、低延迟和低功耗语音转文本推理进行了优化。
nineninesix
KaniTTS是一款专为实时对话式AI应用优化的高速、高保真文本转语音模型,采用两阶段管道结合大型语言模型和高效音频编解码器,实现卓越的速度和音频质量。该模型支持西班牙语,具有4亿参数,采样率为22kHz。
KaniTTS是一款专为实时对话式人工智能应用优化的高速、高保真阿拉伯语文本转语音模型。它采用两阶段流水线架构,结合大语言模型与高效音频编解码器,实现卓越的速度和音频质量,能够满足对话式AI、无障碍辅助、研究等多领域的语音合成需求。
KaniTTS是一款专为实时对话式AI应用优化的高速、高保真文本转语音模型,通过独特的两阶段架构结合大语言模型与高效音频编解码器,实现低延迟与高质量语音合成,实时因子低至0.2,比实时速度快5倍。
KaniTTS是一款专为实时对话式AI应用优化的高速、高保真文本转语音模型。它采用两阶段流水线架构,结合大语言模型和高效音频编解码器,实现了卓越的速度和音频质量,支持多种语言并适用于边缘/服务器部署。
neuphonic
NeuTTS Air是世界上首个具备即时语音克隆功能的超逼真、端侧文本转语音(TTS)语言模型。基于0.5B参数的大语言模型骨干构建,能为本地设备带来自然的语音、实时性能、内置安全性和说话人克隆功能。
NeuTTS Air是全球首个具有即时语音克隆功能的超逼真设备端文本转语音模型,基于0.5B参数的大语言模型骨干构建,能在本地设备上实现自然语音生成、实时性能和说话人克隆功能。
NeuTTS Air是世界上首个具备即时语音克隆功能的超逼真、设备端文本转语音(TTS)语言模型。基于0.5B大语言模型骨干网络构建,能为本地设备带来自然的语音、实时性能、内置安全功能和说话人克隆能力。
一个基于MCP协议的语音通话服务器,集成Twilio和OpenAI技术,实现AI助手发起和管理实时语音通话。
一个基于MCP协议的语音通话服务器,整合Twilio和OpenAI技术,实现AI助手发起和管理实时语音通话,支持多语言切换和预设场景模板。
基于Twilio和OpenAI的语音通话MCP服务器,实现AI助手发起和管理实时语音通话
TEN Agent是一个多功能AI代理框架,集成了实时视觉、语音识别和屏幕共享检测能力,支持快速扩展开发。
MCP说话人分离与识别系统是一个集成了GPU加速的说话人分离、语音识别、情感检测和Web界面的完整解决方案。它结合了pyannote.audio的说话人分离与faster-whisper转录技术,支持持久化说话人识别(一次注册,永久识别)、双检测器情感分析(结合通用AI与个性化声纹)、实时流处理、REST API和MCP服务器,专为AI智能体集成和爱好项目设计。