小米发布MiMo-V2.5全链路语音模型系列,包括三款TTS模型和一款开源ASR模型,覆盖语音输入与输出。TTS模型能精准调度情绪、语气和角色身份,让声音可编程、可创作、可复刻,提升人机交互自然度,开启语音智能新纪元。
小米发布MiMo-V2.5系列大模型,包含MiMo-V2.5、V2.5-Pro及配套TTS与ASR模型,标志着模型从“能用”到“好用”的升级。其中旗舰型号MiMo-V2.5-Pro在通用智能体能力和软件工程方面已能与Claude Opus4.6、GPT-5.4等顶尖模型竞争,核心优势在于高指令遵循度和自我修正能力。
微软开源VibeVoice语音AI模型,支持ASR和TTS,具备长音频处理、多说话人对话生成及实时低延迟特性,已在GitHub获27K星。采用MIT协议,支持本地部署,无需云端费用,旨在推动语音合成领域创新。
英伟达发布PersonaPlex-7B-v1语音对话模型,突破传统AI语音助手“一问一答”模式,实现更自然的真人对话体验。该模型采用单一Transformer架构,直接完成语音理解与生成,无需传统ASR、LLM、TTS串联处理。
提供语音AI的ASR、TTS和LLM模型,可测试部署用于实时应用。
Nexa SDK可在数分钟内将AI模型部署到任何设备上,快速、私密且适用于多场景。
PengChengStarling 是一个基于 icefall 项目的多语言自动语音识别(ASR)模型开发工具包。
百聆是一个类似GPT-4o的语音对话机器人,通过ASR+LLM+TTS实现,低配置也可运行,支持打断。
Anthropic
$7
输入tokens/百万
$35
输出tokens/百万
200
上下文长度
Alibaba
-
Chatglm
128
ai-sage
GigaAM-v3是基于Conformer架构的俄语自动语音识别基础模型,拥有2.2-2.4亿参数。它是GigaAM系列的第三代模型,在70万小时俄语语音数据上使用HuBERT-CTC目标进行预训练,在广泛的俄语ASR领域提供最先进的性能。
abr-ai
这是一个由Applied Brain Research(ABR)开发的基于状态空间模型(SSM)的英文自动语音识别模型,拥有约1900万参数,能够高效准确地将英文语音转录为文本。该模型在多个基准数据集上表现出色,平均单词错误率仅为10.61%,支持实时语音识别并可在低成本硬件上运行。
Vikhrmodels
Borealis 是首款面向俄语的自动语音识别(ASR)音频大语言模型,经过约7000小时俄语音频数据训练。该模型支持识别音频中的标点符号,架构受Voxtral启发但有所改进,在多个俄语ASR基准测试中表现优异。
openchs
基于OpenAI Whisper Large v2在Common Voice 17.0斯瓦希里语数据集上微调的语音识别模型,专为坦桑尼亚儿童求助热线的斯瓦希里语语音识别任务设计,相比基础模型在斯瓦希里语识别准确率上有显著提升。
MediaTek-Research
Breeze ASR 25 是一款基于 Whisper-large-v2 微调的先进自动语音识别模型,特别优化了台湾普通话和普通话-英语代码切换场景的识别能力。
unsloth
Whisper是一个预训练的自动语音识别(ASR)和语音翻译模型,通过68万小时标注数据训练,具有强大的泛化能力。
Whisper是OpenAI开发的最先进的自动语音识别(ASR)和语音翻译模型,在超过500万小时的标记数据上训练,具有强大的零样本泛化能力。Turbo版本是原版的修剪微调版本,解码层从32层减少到4层,速度大幅提升但质量略有下降。
Whisper是OpenAI开发的最先进的自动语音识别(ASR)和语音翻译模型,支持多种语言
istupakov
NVIDIA Parakeet TDT 0.6B V2 是一个基于自动语音识别(ASR)任务的模型,适用于英语语音转文本任务。
mlx-community
该模型是基于FastConformer架构的日语自动语音识别(ASR)模型,由NVIDIA开发并转换为MLX格式。
ibm-granite
Granite-speech-3.3-2b是IBM开发的紧凑高效语音语言模型,专为自动语音识别(ASR)和自动语音翻译(AST)设计,采用双通设计提高模块化和安全性。
GigaAM v2 是一个自动语音识别(ASR)模型,支持俄语语音转文本任务,提供CTC和RNN-T两种架构。
benax-rw
KinyaWhisper是基于OpenAI Whisper模型微调的卢旺达语自动语音识别(ASR)系统,专为低资源土著语言设计。
专为自动语音识别(ASR)和自动语音翻译(AST)设计的紧凑高效语音语言模型,采用双阶段设计处理音频和文本
Purfview
Distil-Whisper是Whisper模型的蒸馏版本,针对自动语音识别(ASR)任务进行了优化,提供更快的推理速度。
sbapan41
Quantum_STT 是一种先进的自动语音识别(ASR)和语音翻译模型,基于大规模弱监督训练,支持多种语言和任务。
asr-africa
基于facebook/w2v-bert-2.0微调的豪萨语语音识别模型,在500小时豪萨语数据上训练,词错误率7.47%
waveletdeboshir
GigaAM-v2-RNNT 是一个俄语自动语音识别(ASR)模型,基于RNNT架构,适用于语音转文本任务。
Granite-speech-3.2-8b 是一款紧凑高效的语音语言模型,专为自动语音识别(ASR)和自动语音翻译(AST)设计。
pluttodk
目前最快的丹麦语ASR模型,是hviske-v2的蒸馏版本,速度提升约4倍且保持准确率不变。
ASR MCP服务器是一个基于whisper引擎的自动语音识别服务,通过MCP工具提供语音合成功能,便于应用集成。