Inworld AI发布实时TTS-2语音模型,通过API预览版实现突破。与传统文本转语音不同,该模型能实时感知用户语调、节奏和情感,采用闭环系统架构,无需依赖文字转录,提供更自然流畅的对话体验。
小米发布MiMo-V2.5全链路语音模型系列,包括三款TTS模型和一款开源ASR模型,覆盖语音输入与输出。TTS模型能精准调度情绪、语气和角色身份,让声音可编程、可创作、可复刻,提升人机交互自然度,开启语音智能新纪元。
小米发布MiMo-V2.5系列大模型,包含MiMo-V2.5、V2.5-Pro及配套TTS与ASR模型,标志着模型从“能用”到“好用”的升级。其中旗舰型号MiMo-V2.5-Pro在通用智能体能力和软件工程方面已能与Claude Opus4.6、GPT-5.4等顶尖模型竞争,核心优势在于高指令遵循度和自我修正能力。
谷歌推出Gemini-TTS模型,定位为“最富表现力的文本转语音解决方案”。其核心突破在于赋予开发者对语音的精细控制能力,通过提示词可灵活调节情感、节奏和风格,告别传统TTS声音单调、缺乏表现力的局限。
高质量的语音克隆 TTS 模型,支持 600 多种语言。
Noiz AI支持声音克隆、情绪控制,提供多语言TTS及开发者API。
先进的文本转语音模型,提供高质量的语音合成服务。
提供语音AI的ASR、TTS和LLM模型,可测试部署用于实时应用。
Alibaba
-
输入tokens/百万
输出tokens/百万
上下文长度
$2.4
$12
8
$1.6
$10
openbmb
VoxCPM是一款创新的免分词器端到端文本转语音(TTS)系统,通过在连续空间中对语音进行建模,克服了离散分词的局限性。它具备上下文感知语音生成和逼真零样本语音克隆两大核心能力,能够根据文本内容自动调整韵律和风格,并仅需一个简短的参考音频即可克隆说话者的音色、口音和情感。
nari-labs
Dia2是由Nari Labs开发的流式对话文本转语音(TTS)模型,支持实时语音生成,无需完整文本即可开始生成音频,能够根据对话上下文进行调整,实现自然流畅的对话体验。
Dia2是由Nari Labs开发的流式对话文本转语音(TTS)模型,支持实时语音生成,无需完整文本即可开始生成音频,专为自然对话场景设计。
neuphonic
NeuTTS Air是世界上首个具备即时语音克隆功能的超逼真、端侧文本转语音(TTS)语言模型。基于0.5B参数的大语言模型骨干构建,能为本地设备带来自然的语音、实时性能、内置安全性和说话人克隆功能。
NeuTTS Air是世界上首个具备即时语音克隆功能的超逼真、设备端文本转语音(TTS)语言模型。基于0.5B大语言模型骨干网络构建,能为本地设备带来自然的语音、实时性能、内置安全功能和说话人克隆能力。
notmax123
Zonos-v0.1 是一款领先的开源文本转语音(TTS)模型,基于超过20万小时的多语言语音数据训练,在表现力和质量上可与顶级TTS供应商相媲美。支持零样本语音克隆、多语言合成和精细的音频控制。
NeuCodec的ONNX编译版本解码器,专为设备端文本转语音(TTS)设计的轻量级音频解码模型,能够高效地将编码后的音频特征转换为高质量音频信号。
snorbyte
snorTTS-Indic-v0 是一个多语言印度语语音合成(TTS)模型,能够生成九种印度语言的语音。
unsloth
Orpheus TTS 是一款基于 Llama 的先进语音大语言模型(Speech-LLM),专为生成高质量、富有情感的语音而设计。
kyutai
京都台文本转语音(TTS)模型是一款用于流式文本转语音的模型,支持实时语音生成和多语言处理。
re-skill
Orpheus TTS 是一款基于 Llama 的先进语音大语言模型,专为实现高质量、富有情感的文本转语音功能而设计。
salihfurkaan
VoxPolska Auralis是一款先进的波兰语文本转语音(TTS)模型,采用前沿深度学习技术,能够精准捕捉波兰语的细微差别和语调,将书面文本转化为自然、流畅且富有表现力的语音。
cocktailpeanut
OpenAudio S1是一款领先的文本转语音(TTS)模型,基于超过200万小时的多语言音频数据训练,支持13种常见语言,提供高质量的语音合成服务,并支持丰富的情感、语调和特殊效果标记。
Llasa是一个基于LLaMA的文本转语音(TTS)系统,通过整合语音标记扩展了语言模型的能力,支持中英文语音生成。
hcsolakoglu
鄂尔浑-TTS是基于F5 TTS架构的土耳其语文本转语音模型,由Hasan Can Solakoğlu开发,目前处于Alpha阶段。
mmwillet2
Dia 1.6B 是一个适用于文本转语音任务的模型,支持多种量化版本,兼容TTS.cpp框架。
mrfakename
OpenF5 TTS 是一款基于F5-TTS框架训练的开源文本转语音模型,支持零样本语音克隆功能,采用Apache 2.0许可协议,可商业使用。
NikolayKozloff
Muyan-TTS是一个文本转语音(TTS)模型,已转换为GGUF格式以便与llama.cpp配合使用。
2121-8
基于llm-jp/llm-jp-3-150m-instruct3训练的日语TTS基础模型,通过精简控制提示实现高效参数配置
syvai
基于1000+小时丹麦语数据训练的文本转语音模型,支持自然对话场景的语音合成
Kokoro文本转语音(TTS)MCP服务器,支持生成MP3文件并可选上传至S3存储
Deep-Co是一个基于Compose Multiplatform开发的跨平台聊天客户端,支持多种LLM API提供商,包括OpenRouter、Anthropic、Grok、OpenAI等,并兼容OpenAI API和本地模型。具备聊天记录管理、提示词管理、角色适配、TTS等功能,支持多语言和主题定制。
Kyutai TTS的Docker部署方案,提供一键启动的Web界面、REST API和MCP工具支持,支持GPU加速和多语言界面。
Zonos TTS与Claude的MCP集成项目,实现文本转语音功能。
一个为Claude Code设计的文本转语音MCP服务器插件,使用OpenAI TTS API将文本转换为语音,提供自动语音反馈功能。
一个基于MCP服务器和OpenAI TTS SDK的文本转语音工具,支持本地环境播放。
一个基于Chatterbox TTS模型的简化MCP服务器,提供文本转语音生成及自动播放功能,支持实时进度通知和自动模型加载。
一个基于FishSpeech的文本转语音(TTS)MCP服务器,支持语音参考保存,可与Dive等MCP兼容的LLM集成使用。
基于Kokoro TTS引擎的语音合成MCP服务
一个基于MCP框架的多功能TTS服务器,整合了Kokoro本地TTS和OpenAI云端TTS引擎,支持实时音频流、语音定制及播放控制。
基于OpenAI TTS API的高质量文本转语音工具与MCP服务
Blabber-MCP是基于OpenAI文本转语音API的MCP服务器,为LLM提供语音输出功能。
该项目使用Google ADK和ElevenLabs MCP服务器构建了一个文本转语音(TTS)的智能体,通过uvx连接实现语音合成功能。
基于MCP的文本转语音服务器
Windows TTS MCP Server是一个基于PowerShell的文本转语音服务,为Claude Desktop提供稳定高效的TTS功能,支持语音控制、速度调节和紧急静音等操作。
为Claude AI提供Linux系统上的Zonos TTS语音合成集成
一个基于Kokoro TTS模型的文本转语音MCP服务器,提供高质量的语音合成服务