阿里巴巴发布Qwen3-TTS语音合成模型,具备零样本、多角色、跨语言能力,在词错误率上优于主流商用引擎。提供49种音色,覆盖多种场景,支持10种语言及9种中国方言。开发者可在阿里云免费调用100万字符额度。
微软开源实时语音模型VibeVoice-Realtime-0.5B,具备极低延迟和接近真人的语音表现。该模型从文本输入到发声平均仅需300毫秒,远低于传统TTS模型的1-3秒,实现近乎零延迟的实时语音合成。
MiniMax Speech 2.6发布,语音合成技术实现突破:延迟低于250毫秒,支持Fluent LoRA一键复刻任意音色,推动语音交互进入实时时代,提升AI产品应用体验。
MiniMax发布新一代语音合成模型Speech 2.6,实现端到端延迟低于250毫秒的实时响应,接近人类对话速度。其革命性Fluent LoRA音色复刻技术显著提升语音自然度和个性化水平,推动语音交互向高自然、低延迟、强定制方向突破发展。
先进的文本转语音模型,提供高质量的语音合成服务。
Noiz AI提供自然流畅的语音合成服务,应用场景丰富,生成高效。
Vidofy AI可秒级生成专业AI视频和独特图像,释放你的创造力。
Aivvid AI是一体化AI创意平台,可生成视频、图像、音乐和配音。
Alibaba
$8
Input tokens/M
$240
Output tokens/M
52
Context Length
$3.9
$15.2
64
$15.8
$12.7
-
Bytedance
$0.8
$2
128
Tencent
32
$2.4
$12
8
$3
$9
$1.6
$10
$1.5
Xai
$21
$105
Openai
$3.5
$10.5
16
Baidu
Chatglm
$100
pnnbao-ump
VieNeu-TTS-1000h是一款先进的越南语端侧文本转语音模型,基于约1000小时高质量越南语语音数据训练,具备即时语音克隆功能,支持越南语与英语的无缝切换,能在CPU或GPU上实时合成24kHz波形。
IbrahimSalah
这是一个基于300小时纯净阿拉伯语音频数据微调的文本转语音模型,专门为带完整元音符号的现代标准阿拉伯语提供高质量语音合成,支持声音克隆和长文本处理功能。
Marvis-AI
这是一个基于MLX框架优化的文本转语音模型,从原始模型Marvis-AI/marvis-tts-100m-v0.2转换而来,采用6位量化技术,专门为Apple Silicon硬件优化,提供高效的语音合成能力。
dinhthuan
NeuTTS-Air越南语文本转语音模型是基于260多万条越南语音频样本,从NeuTTS-Air基础模型微调而来的高质量越南语语音合成模型。该模型能够实现自然流畅的越南语语音合成,支持语音克隆功能,并针对生产环境进行了优化。
OpenMOSS-Team
MOSS-TTSD是一个开源的双语口语对话合成模型,支持中文和英文,能够将两人对话脚本转化为自然、富有表现力的对话语音,支持语音克隆且单轮语音生成时长最长可达1700秒。
kenpath
Svara-TTS是一款面向印度语言的开源多语言文本转语音模型,支持19种语言(18种印度语言+印度英语)。该模型基于Orpheus风格的离散音频令牌方法构建,旨在普通GPU/CPU上实现清晰、富有表现力且低延迟的语音合成。
nineninesix
KaniTTS是一款专为实时对话式人工智能应用优化的高速、高保真阿拉伯语文本转语音模型。它采用两阶段流水线架构,结合大语言模型与高效音频编解码器,实现卓越的速度和音频质量,能够满足对话式AI、无障碍辅助、研究等多领域的语音合成需求。
KaniTTS是一款专为实时对话式AI应用优化的高速、高保真文本转语音模型,通过独特的两阶段架构结合大语言模型与高效音频编解码器,实现低延迟与高质量语音合成,实时因子低至0.2,比实时速度快5倍。
CypressYang
SongBloom是一款专注于文本转音频的生成模型,能够将文本转化为生动的音频内容,为用户带来全新的语音合成体验。
KaniTTS Pretrain v0.3是一款高速、高保真的文本转语音模型,专为实时对话式人工智能应用优化,采用两阶段管道架构,结合大语言模型和高效音频编解码器,实现极低延迟和高品质语音合成。
这是一个基于MLX框架优化的文本转语音模型,由nineninesix开发,支持多种语言的高质量语音合成。
notmax123
Zonos-v0.1 是一款领先的开源文本转语音(TTS)模型,基于超过20万小时的多语言语音数据训练,在表现力和质量上可与顶级TTS供应商相媲美。支持零样本语音克隆、多语言合成和精细的音频控制。
cartesia
这是针对csm.rs框架优化的sesame/csm-1b文本转语音模型的GGUF量化版本,通过量化技术减小模型大小并提升推理效率,适用于语音合成任务。
Marvis 是一款先进的对话式语音模型,专为实现实时流式文本转语音合成而设计。它以高效和易用性为核心,支持在苹果芯片、iPhone、iPad、Mac 等消费设备上运行的高质量实时语音合成。
calcuis
Higgs的GGUF量化版本是基于bosonai基础模型的文本转语音合成模型,支持多种语言的语音生成,具有高效的推理性能和便捷的本地部署能力。
snorbyte
snorTTS-Indic-v0 是一个多语言印度语语音合成(TTS)模型,能够生成九种印度语言的语音。
fnlp
MOSS-TTSD 是一个开源的双语口语对话合成模型,支持中文和英文,能够将对话脚本转化为自然、富有表现力的对话语音。
griffing52
基于microsoft/speecht5_tts微调的语音合成模型,适用于语音合成任务。
Anjan9320
这是一个基于Facebook MMS项目的超轻量级印地语语音合成模型,采用VITS架构,能够将印地语文本转换为高质量、自然流畅的语音输出。模型专为印地语优化,具有高效的推理性能。
这是一个基于Facebook MMS项目的超轻量级印地语语音合成模型,专门针对女性声音进行了优化。该模型能够将印地语文本转换为自然流畅的女性语音,具有轻量级、高效运行的特点,支持随机时长预测器生成不同节奏的语音。
ElevenLabs官方MCP服务器,提供文本转语音和音频处理API交互能力
MiniMax官方模型上下文协议(MCP)服务器,支持文本转语音、视频/图像生成等API交互。
这是一个基于Node.js的MCP服务器项目,通过Model Context Protocol实现AI助手与棒読みちゃん语音合成软件的集成,提供文本转语音功能。
ElevenLabs文本转语音MCP服务
为Typecast API实现的MCP服务器,提供标准化交互接口
VOICEPEAK文本转语音的MCP服务器,支持语音合成、播放和发音词典管理等功能
Zonos TTS与Claude的MCP集成项目,实现文本转语音功能。
该项目实现了Typecast API的MCP服务器,为MCP客户端提供标准化的语音合成服务交互方式。
Kokoro文本转语音(TTS)MCP服务器,支持生成MP3文件并可选上传至S3存储
MiniMax MCP JS是一个基于JavaScript/TypeScript实现的MiniMax MCP协议工具集,提供图像生成、视频生成、文本转语音等功能,支持与MCP兼容客户端交互。
一个基于Rime API的文本转语音MCP服务器,提供系统音频播放功能。
基于Edge-TTS的MCP语音合成服务器
一个基于MCP服务器和OpenAI TTS SDK的文本转语音工具,支持本地环境播放。
一个基于Chatterbox TTS模型的简化MCP服务器,提供文本转语音生成及自动播放功能,支持实时进度通知和自动模型加载。
一个为AivisSpeech文本转语音引擎设计的MCP服务器,支持日语语音合成、多角色声音选择和参数配置,实现与AI助手的无缝集成。
基于Kokoro TTS引擎的语音合成MCP服务
Rime MCP是一个基于Rime API的文本转语音服务,通过系统原生音频播放器实现语音合成与播放功能。
VOICEVOX互兼容的语音合成服务器,通过MCP协议实现与Cursor等工具的集成
ListenHub官方MCP服务器,支持AI播客生成、FlowSpeech语音合成等功能,提供多客户端配置方案和多种传输模式。
Zonos MCP集成项目为Claude提供文本转语音功能,通过Model Context Protocol实现直接语音生成,支持多语言和情感语调设置。