小米Kaldi团队开源OmniVoice模型,支持超600种语言,在中文和多语言TTS基准测试中多项指标达到SOTA。中文WER低至0.84%,多语言性能超越主流商用模型,实现语音合成新突破。
微软发布全新语音转文字模型MAI-Transcribe-1,在25种语言上平均词错误率仅3.9%,成为全球最精准转写模型。该模型在FLEURS基准测试中表现优异,尤其在英语等11种核心语言上效果突出。这是微软MAI系列第三款产品,此前已推出语音合成和图像生成模型。
微软开源VibeVoice语音AI模型,支持ASR和TTS,具备长音频处理、多说话人对话生成及实时低延迟特性,已在GitHub获27K星。采用MIT协议,支持本地部署,无需云端费用,旨在推动语音合成领域创新。
通义实验室发布开源多模态大模型Fun-CineForge,旨在解决传统AI配音在影视动画中情绪表达和口型同步不足的问题。该模型突破声画脱节瓶颈,专注于实现合成语音与画面唇部运动的高度匹配,提升配音真实感。
高质量的语音克隆 TTS 模型,支持 600 多种语言。
专业AI面试助手,提供实时语音识别、智能回答生成等功能,提升面试成功率。
开源的前沿语音 AI 模型,支持语音识别和文本转语音。
一站式有声内容创作平台,助力高效创作有声书。
Alibaba
$8
输入tokens/百万
$240
输出tokens/百万
52
上下文长度
$3.9
$15.2
64
$15.8
$12.7
-
Bytedance
$0.8
$2
128
Tencent
32
$2.4
$12
8
$3
$9
$1.6
$10
$1.5
Xai
$21
$105
Openai
$3.5
$10.5
16
Baidu
Chatglm
$100
pnnbao-ump
VieNeu-TTS-1000h是一款先进的越南语端侧文本转语音模型,基于约1000小时高质量越南语语音数据训练,具备即时语音克隆功能,支持越南语与英语的无缝切换,能在CPU或GPU上实时合成24kHz波形。
IbrahimSalah
这是一个基于300小时纯净阿拉伯语音频数据微调的文本转语音模型,专门为带完整元音符号的现代标准阿拉伯语提供高质量语音合成,支持声音克隆和长文本处理功能。
Marvis-AI
这是一个基于MLX框架优化的文本转语音模型,从原始模型Marvis-AI/marvis-tts-100m-v0.2转换而来,采用6位量化技术,专门为Apple Silicon硬件优化,提供高效的语音合成能力。
dinhthuan
NeuTTS-Air越南语文本转语音模型是基于260多万条越南语音频样本,从NeuTTS-Air基础模型微调而来的高质量越南语语音合成模型。该模型能够实现自然流畅的越南语语音合成,支持语音克隆功能,并针对生产环境进行了优化。
OpenMOSS-Team
MOSS-TTSD是一个开源的双语口语对话合成模型,支持中文和英文,能够将两人对话脚本转化为自然、富有表现力的对话语音,支持语音克隆且单轮语音生成时长最长可达1700秒。
kenpath
Svara-TTS是一款面向印度语言的开源多语言文本转语音模型,支持19种语言(18种印度语言+印度英语)。该模型基于Orpheus风格的离散音频令牌方法构建,旨在普通GPU/CPU上实现清晰、富有表现力且低延迟的语音合成。
nineninesix
KaniTTS是一款专为实时对话式人工智能应用优化的高速、高保真阿拉伯语文本转语音模型。它采用两阶段流水线架构,结合大语言模型与高效音频编解码器,实现卓越的速度和音频质量,能够满足对话式AI、无障碍辅助、研究等多领域的语音合成需求。
KaniTTS是一款专为实时对话式AI应用优化的高速、高保真文本转语音模型,通过独特的两阶段架构结合大语言模型与高效音频编解码器,实现低延迟与高质量语音合成,实时因子低至0.2,比实时速度快5倍。
CypressYang
SongBloom是一款专注于文本转音频的生成模型,能够将文本转化为生动的音频内容,为用户带来全新的语音合成体验。
KaniTTS Pretrain v0.3是一款高速、高保真的文本转语音模型,专为实时对话式人工智能应用优化,采用两阶段管道架构,结合大语言模型和高效音频编解码器,实现极低延迟和高品质语音合成。
这是一个基于MLX框架优化的文本转语音模型,由nineninesix开发,支持多种语言的高质量语音合成。
notmax123
Zonos-v0.1 是一款领先的开源文本转语音(TTS)模型,基于超过20万小时的多语言语音数据训练,在表现力和质量上可与顶级TTS供应商相媲美。支持零样本语音克隆、多语言合成和精细的音频控制。
cartesia
这是针对csm.rs框架优化的sesame/csm-1b文本转语音模型的GGUF量化版本,通过量化技术减小模型大小并提升推理效率,适用于语音合成任务。
Marvis 是一款先进的对话式语音模型,专为实现实时流式文本转语音合成而设计。它以高效和易用性为核心,支持在苹果芯片、iPhone、iPad、Mac 等消费设备上运行的高质量实时语音合成。
calcuis
Higgs的GGUF量化版本是基于bosonai基础模型的文本转语音合成模型,支持多种语言的语音生成,具有高效的推理性能和便捷的本地部署能力。
snorbyte
snorTTS-Indic-v0 是一个多语言印度语语音合成(TTS)模型,能够生成九种印度语言的语音。
fnlp
MOSS-TTSD 是一个开源的双语口语对话合成模型,支持中文和英文,能够将对话脚本转化为自然、富有表现力的对话语音。
griffing52
基于microsoft/speecht5_tts微调的语音合成模型,适用于语音合成任务。
Anjan9320
这是一个基于Facebook MMS项目的超轻量级印地语语音合成模型,采用VITS架构,能够将印地语文本转换为高质量、自然流畅的语音输出。模型专为印地语优化,具有高效的推理性能。
这是一个基于Facebook MMS项目的超轻量级印地语语音合成模型,专门针对女性声音进行了优化。该模型能够将印地语文本转换为自然流畅的女性语音,具有轻量级、高效运行的特点,支持随机时长预测器生成不同节奏的语音。
ElevenLabs官方MCP服务器,提供文本转语音和音频处理API交互能力
MiniMax官方模型上下文协议(MCP)服务器,支持文本转语音、视频/图像生成等API交互。
这是一个基于Node.js的MCP服务器项目,通过Model Context Protocol实现AI助手与棒読みちゃん语音合成软件的集成,提供文本转语音功能。
为Typecast API实现的MCP服务器,提供标准化交互接口
ElevenLabs文本转语音MCP服务
Kyutai TTS的Docker部署方案,提供一键启动的Web界面、REST API和MCP工具支持,支持GPU加速和多语言界面。
Kokoro文本转语音(TTS)MCP服务器,支持生成MP3文件并可选上传至S3存储
Zonos TTS与Claude的MCP集成项目,实现文本转语音功能。
VOICEPEAK文本转语音的MCP服务器,支持语音合成、播放和发音词典管理等功能
该项目实现了Typecast API的MCP服务器,为MCP客户端提供标准化的语音合成服务交互方式。
这是一个用于控制Reachy Mini机器人的MCP服务器,通过自然语言指令实现舞蹈、表情、头部运动、摄像头图像捕捉、头部跟踪和本地实时语音合成等功能。
一个基于Rime API的文本转语音MCP服务器,提供系统音频播放功能。
MiniMax MCP JS是一个基于JavaScript/TypeScript实现的MiniMax MCP协议工具集,提供图像生成、视频生成、文本转语音等功能,支持与MCP兼容客户端交互。
一个为AivisSpeech文本转语音引擎设计的MCP服务器,支持日语语音合成、多角色声音选择和参数配置,实现与AI助手的无缝集成。
一个基于MCP服务器和OpenAI TTS SDK的文本转语音工具,支持本地环境播放。
基于Edge-TTS的MCP语音合成服务器
一个基于Chatterbox TTS模型的简化MCP服务器,提供文本转语音生成及自动播放功能,支持实时进度通知和自动模型加载。
基于Kokoro TTS引擎的语音合成MCP服务
VOICEVOX互兼容的语音合成服务器,通过MCP协议实现与Cursor等工具的集成
Rime MCP是一个基于Rime API的文本转语音服务,通过系统原生音频播放器实现语音合成与播放功能。