阿里通义千问团队开源Qwen3-TTS系列语音生成模型,采用端到端架构,支持秒级音色克隆、自然语言音色设计和实时流式输出。其核心创新Dual-Track双轨混合流式生成机制结合离散多码本语言模型,实现极致低延迟,大幅降低实时应用门槛。
东软集团与Cerence AI达成战略合作,共同开发新一代智能座舱平台,聚焦智能语音与大语言模型技术,为全球车企提供高效、预集成的智能交互解决方案。东软将依托其NAGIC智能座舱平台,结合Cerence AI的前沿技术,满足市场对智能座舱日益增长的需求。
xAI发布Grok语音代理API,每分钟仅0.05美元,性价比极高。该模型在音频推理基准测试中表现最佳,首音延迟不到1秒,响应速度比竞品快近5倍。支持包括中文在内的数十种语言自动检测与切换,并集成实时网页搜索与推理能力,提升回复质量。
微信输入法iOS版升级至3.0.0,核心转向语音优先交互。新版重构语音输入,底层大模型全面升级,提升识别速度与准确度,并加强实用性、语言覆盖和隐私保护。最大亮点是新增对15种中国方言的深度支持,如粤语等。
提供语音AI的ASR、TTS和LLM模型,可测试部署用于实时应用。
Spark-TTS 是一种基于大语言模型的高效单流解耦语音合成模型。
Scribe 是全球最准确的语音转文字模型,支持99种语言。
Zonos-v0.1 是一个领先的开放权重文本到语音模型,能够生成高质量的多语言语音。
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
$1
$10
256
$6
$24
$2
$20
Baidu
128
$8
$240
52
Bytedance
$1.2
$3.6
4
kenpath
Svara-TTS是一款面向印度语言的开源多语言文本转语音模型,支持19种语言(18种印度语言+印度英语)。该模型基于Orpheus风格的离散音频令牌方法构建,旨在普通GPU/CPU上实现清晰、富有表现力且低延迟的语音合成。
nineninesix
KaniTTS是一款专为实时对话式AI应用优化的高速、高保真文本转语音模型,采用两阶段管道结合大型语言模型和高效音频编解码器,实现卓越的速度和音频质量。该模型支持西班牙语,具有4亿参数,采样率为22kHz。
KaniTTS是一款专为实时对话式人工智能应用优化的高速、高保真阿拉伯语文本转语音模型。它采用两阶段流水线架构,结合大语言模型与高效音频编解码器,实现卓越的速度和音频质量,能够满足对话式AI、无障碍辅助、研究等多领域的语音合成需求。
KaniTTS是一款专为实时对话式AI应用优化的高速、高保真文本转语音模型,通过独特的两阶段架构结合大语言模型与高效音频编解码器,实现低延迟与高质量语音合成,实时因子低至0.2,比实时速度快5倍。
teckedd
本模型是基于OpenAI Whisper-small在Common Voice 17.0数据集上微调的自动语音识别模型,专门针对Twi语言进行优化,能够实现语音内容的准确识别。
KaniTTS Pretrain v0.3是一款高速、高保真的文本转语音模型,专为实时对话式人工智能应用优化,采用两阶段管道架构,结合大语言模型和高效音频编解码器,实现极低延迟和高品质语音合成。
KaniTTS是一款专为实时对话式AI应用优化的高速、高保真文本转语音模型。它采用两阶段流水线架构,结合大语言模型和高效音频编解码器,实现了卓越的速度和音频质量,支持多种语言并适用于边缘/服务器部署。
KaniTTS是一款高速、高保真的文本转语音模型,专为实时对话式人工智能应用而优化。该模型采用两阶段处理流程,结合大语言模型和高效音频编解码器,在Nvidia RTX 5080上生成15秒音频的延迟仅需约1秒,MOS自然度评分达4.3/5,支持英语、中文、日语等多种语言。
neuphonic
NeuTTS Air是世界上首个具备即时语音克隆功能的超逼真、端侧文本转语音(TTS)语言模型。基于0.5B参数的大语言模型骨干构建,能为本地设备带来自然的语音、实时性能、内置安全性和说话人克隆功能。
NeuTTS Air是全球首个具有即时语音克隆功能的超逼真设备端文本转语音模型,基于0.5B参数的大语言模型骨干构建,能在本地设备上实现自然语音生成、实时性能和说话人克隆功能。
XiaomiMiMo
MiMo Audio是小米开发的音频语言模型,通过大规模预训练展现出强大的少样本学习能力。该模型突破了传统模型依赖特定任务微调的局限,在语音智能、音频理解等任务中表现出色,在开源模型中达到先进水平。
MiMo Audio是一款基于大规模预训练的音频语言模型,在语音智能和音频理解基准测试中取得了开源模型的SOTA性能。该模型展现出强大的少样本学习能力,能够泛化到训练数据中未包含的任务,支持语音转换、风格迁移和语音编辑等多种音频任务。
NeuTTS Air是世界上首个具备即时语音克隆功能的超逼真、设备端文本转语音(TTS)语言模型。基于0.5B大语言模型骨干网络构建,能为本地设备带来自然的语音、实时性能、内置安全功能和说话人克隆能力。
Vikhrmodels
Borealis 是首款面向俄语的自动语音识别(ASR)音频大语言模型,经过约7000小时俄语音频数据训练。该模型支持识别音频中的标点符号,架构受Voxtral启发但有所改进,在多个俄语ASR基准测试中表现优异。
KrauthammerLab
CAST 0.7B 是基于0.7B参数Gemma3风格语言模型构建的语音转语音语言模型,能够生成自然的语音音频延续内容。该模型依赖于CAST WavTokenizer进行编码/解码操作,专门用于语音生成任务。
mispeech
MiDashengLM-7B-0804是小米发布的7B参数多模态语音语言模型,支持音频理解和文本生成任务,适用于通用场景的推理和微调。
stepfun-ai
Step-Audio 2 是一款端到端的多模态大语言模型,专为满足行业级音频理解和语音对话需求而设计。具备先进的语音和音频理解能力、智能语音对话功能、工具调用和多模态检索增强生成能力,在多个音频理解和对话基准测试中取得了领先的性能。
nvidia
OmniVinci是NVIDIA开发的全模态理解大语言模型,具备视觉、文本、音频处理和语音交互能力,支持多模态推理和理解。
FluidInference
parakeet-tdt-0.6b-v3 是一款强大的多语言自动语音识别模型,支持英语、西班牙语、法语、德语等多种欧洲语言,基于FastConformer-TDT架构,使用公开数据集训练,为跨语言语音识别提供高效解决方案。
istupakov
NVIDIA Parakeet TDT 0.6B V3是一个多语言自动语音识别模型,参数量为6亿,支持包括英语、西班牙语、法语、德语等25种欧洲语言,可将语音转换为文本。