Inworld发布TTS-1.5文本转语音模型,以自然、富有表现力的实时语音为亮点。该模型支持多语言,延迟低于250毫秒,使用成本约每分钟0.005美元,比同类产品便宜25倍,有望吸引广泛用户。
英伟达发布PersonaPlex-7B-v1语音对话模型,突破传统AI语音助手“一问一答”模式,实现更自然的真人对话体验。该模型采用单一Transformer架构,直接完成语音理解与生成,无需传统ASR、LLM、TTS串联处理。
初创公司Resemble AI发布开源语音模型“Chatterbox Turbo”,挑战行业巨头。该模型仅需5秒音频即可克隆语音,延迟低至150毫秒,适用于实时AI代理、客服、游戏角色等场景,性能显著提升。
Google推出Gemini 2.5 Flash与Pro文本转语音预览模型,全面升级5月旧版。新模型支持24种语言的多角色对话,具备“情绪级”表达和自适应节奏功能,用户可一键切换“欢快乐观”或“阴郁严肃”等音色。开发者现可在Google AI Studio与Playground免费测试,预计2025年第一季度投入生产,适用于有声书、游戏NPC及本地化课程等场景。
Noiz AI支持声音克隆、情绪控制,提供多语言TTS及开发者API。
先进的文本转语音模型,提供高质量的语音合成服务。
提供语音AI的ASR、TTS和LLM模型,可测试部署用于实时应用。
尼泊尔首个AI内容创作平台,支持TTS、STT、文本转图像,有500+语音、100+语言。
Alibaba
-
输入tokens/百万
输出tokens/百万
上下文长度
$2.4
$12
8
$1.6
$10
openbmb
VoxCPM是一款创新的免分词器端到端文本转语音(TTS)系统,通过在连续空间中对语音进行建模,克服了离散分词的局限性。它具备上下文感知语音生成和逼真零样本语音克隆两大核心能力,能够根据文本内容自动调整韵律和风格,并仅需一个简短的参考音频即可克隆说话者的音色、口音和情感。
nari-labs
Dia2是由Nari Labs开发的流式对话文本转语音(TTS)模型,支持实时语音生成,无需完整文本即可开始生成音频,能够根据对话上下文进行调整,实现自然流畅的对话体验。
Dia2是由Nari Labs开发的流式对话文本转语音(TTS)模型,支持实时语音生成,无需完整文本即可开始生成音频,专为自然对话场景设计。
neuphonic
NeuTTS Air是世界上首个具备即时语音克隆功能的超逼真、端侧文本转语音(TTS)语言模型。基于0.5B参数的大语言模型骨干构建,能为本地设备带来自然的语音、实时性能、内置安全性和说话人克隆功能。
NeuTTS Air是世界上首个具备即时语音克隆功能的超逼真、设备端文本转语音(TTS)语言模型。基于0.5B大语言模型骨干网络构建,能为本地设备带来自然的语音、实时性能、内置安全功能和说话人克隆能力。
notmax123
Zonos-v0.1 是一款领先的开源文本转语音(TTS)模型,基于超过20万小时的多语言语音数据训练,在表现力和质量上可与顶级TTS供应商相媲美。支持零样本语音克隆、多语言合成和精细的音频控制。
NeuCodec的ONNX编译版本解码器,专为设备端文本转语音(TTS)设计的轻量级音频解码模型,能够高效地将编码后的音频特征转换为高质量音频信号。
snorbyte
snorTTS-Indic-v0 是一个多语言印度语语音合成(TTS)模型,能够生成九种印度语言的语音。
unsloth
Orpheus TTS 是一款基于 Llama 的先进语音大语言模型(Speech-LLM),专为生成高质量、富有情感的语音而设计。
kyutai
京都台文本转语音(TTS)模型是一款用于流式文本转语音的模型,支持实时语音生成和多语言处理。
re-skill
Orpheus TTS 是一款基于 Llama 的先进语音大语言模型,专为实现高质量、富有情感的文本转语音功能而设计。
salihfurkaan
VoxPolska Auralis是一款先进的波兰语文本转语音(TTS)模型,采用前沿深度学习技术,能够精准捕捉波兰语的细微差别和语调,将书面文本转化为自然、流畅且富有表现力的语音。
cocktailpeanut
OpenAudio S1是一款领先的文本转语音(TTS)模型,基于超过200万小时的多语言音频数据训练,支持13种常见语言,提供高质量的语音合成服务,并支持丰富的情感、语调和特殊效果标记。
Llasa是一个基于LLaMA的文本转语音(TTS)系统,通过整合语音标记扩展了语言模型的能力,支持中英文语音生成。
hcsolakoglu
鄂尔浑-TTS是基于F5 TTS架构的土耳其语文本转语音模型,由Hasan Can Solakoğlu开发,目前处于Alpha阶段。
mmwillet2
Dia 1.6B 是一个适用于文本转语音任务的模型,支持多种量化版本,兼容TTS.cpp框架。
mrfakename
OpenF5 TTS 是一款基于F5-TTS框架训练的开源文本转语音模型,支持零样本语音克隆功能,采用Apache 2.0许可协议,可商业使用。
NikolayKozloff
Muyan-TTS是一个文本转语音(TTS)模型,已转换为GGUF格式以便与llama.cpp配合使用。
2121-8
基于llm-jp/llm-jp-3-150m-instruct3训练的日语TTS基础模型,通过精简控制提示实现高效参数配置
syvai
基于1000+小时丹麦语数据训练的文本转语音模型,支持自然对话场景的语音合成
Kokoro文本转语音(TTS)MCP服务器,支持生成MP3文件并可选上传至S3存储
Zonos TTS与Claude的MCP集成项目,实现文本转语音功能。
Deep-Co是一个基于Compose Multiplatform开发的跨平台聊天客户端,支持多种LLM API提供商,包括OpenRouter、Anthropic、Grok、OpenAI等,并兼容OpenAI API和本地模型。具备聊天记录管理、提示词管理、角色适配、TTS等功能,支持多语言和主题定制。
Kyutai TTS的Docker部署方案,提供一键启动的Web界面、REST API和MCP工具支持,支持GPU加速和多语言界面。
一个基于Chatterbox TTS模型的简化MCP服务器,提供文本转语音生成及自动播放功能,支持实时进度通知和自动模型加载。
一个基于MCP服务器和OpenAI TTS SDK的文本转语音工具,支持本地环境播放。
一个基于FishSpeech的文本转语音(TTS)MCP服务器,支持语音参考保存,可与Dive等MCP兼容的LLM集成使用。
基于Kokoro TTS引擎的语音合成MCP服务
一个基于MCP框架的多功能TTS服务器,整合了Kokoro本地TTS和OpenAI云端TTS引擎,支持实时音频流、语音定制及播放控制。
Blabber-MCP是基于OpenAI文本转语音API的MCP服务器,为LLM提供语音输出功能。
基于OpenAI TTS API的高质量文本转语音工具与MCP服务
基于MCP的文本转语音服务器
该项目使用Google ADK和ElevenLabs MCP服务器构建了一个文本转语音(TTS)的智能体,通过uvx连接实现语音合成功能。
为Claude AI提供Linux系统上的Zonos TTS语音合成集成
Windows TTS MCP Server是一个基于PowerShell的文本转语音服务,为Claude Desktop提供稳定高效的TTS功能,支持语音控制、速度调节和紧急静音等操作。
一个基于Kokoro TTS模型的文本转语音MCP服务器,提供高质量的语音合成服务